RTX 3090でQwen3.5-27Bを207トークン/秒で動かした

https://github.com/Luce-Org/lucebox-hub

記事

  • C++/ggmlのspeculative decoderとblock-diffusionドラフトにより、RTX 3090で207 tok/sを達成。
  • DFlashドラフトモデルを使用。ピーク時にautoregressive baselineの5.46倍の高速化。
  • budget=22、10プロンプトのベンチマークで平均129.5 tok/s。
  • プライベートデータ保護、トークン課金なし、ベンダーロックインなしを強みに「ローカルAIをデフォルトに」と提唱。

ディスカッション

  • 懐疑的な意見が多数:speculative decodingは通常のサンプリングと同じ品質とは言えない。
  • トップコメント(Aurornis):論文公開を機に大量生成されるリポジトリの一つで、Claude(AI)でvibecoding(雰囲気任せで生成)されたもの。
  • greedy decodingのみ使用している点を批判する声もあり、samplingパラメータには存在する理由があるとの指摘。
  • Vulkanサポートを求める声も。現実装はCUDA必須のため、対応GPUが限られる。

HNで議論を読む


原文(英語): We got 207 tok/s with Qwen3.5-27B on an RTX 3090


Type Link
Added Apr 20, 2026
Modified Apr 20, 2026