RTX 3090でQwen3.5-27Bを207トークン/秒で動かした

https://github.com/Luce-Org/lucebox-hub

記事

C++/ggmlのspeculative decoderとblock-diffusionドラフトにより、RTX 3090で207 tok/sを達成。
DFlashドラフトモデルを使用。ピーク時にautoregressive baselineの5.46倍の高速化。
budget=22、10プロンプトのベンチマークで平均129.5 tok/s。
プライベートデータ保護、トークン課金なし、ベンダーロックインなしを強みに「ローカルAIをデフォルトに」と提唱。

ディスカッション

懐疑的な意見が多数：speculative decodingは通常のサンプリングと同じ品質とは言えない。
トップコメント（Aurornis）：論文公開を機に大量生成されるリポジトリの一つで、Claude（AI）でvibecoding（雰囲気任せで生成）されたもの。
greedy decodingのみ使用している点を批判する声もあり、samplingパラメータには存在する理由があるとの指摘。
Vulkanサポートを求める声も。現実装はCUDA必須のため、対応GPUが限られる。

HNで議論を読む

原文（英語）: We got 207 tok/s with Qwen3.5-27B on an RTX 3090

Type	Link
Added	Apr 20, 2026
Modified	Apr 20, 2026

📰 トップストーリー 338 items