記事
-
C++/ggmlのspeculative decoderとblock-diffusionドラフトにより、RTX 3090で207 tok/sを達成。
-
DFlashドラフトモデルを使用。ピーク時にautoregressive baselineの5.46倍の高速化。
-
budget=22、10プロンプトのベンチマークで平均129.5 tok/s。
-
プライベートデータ保護、トークン課金なし、ベンダーロックインなしを強みに「ローカルAIをデフォルトに」と提唱。
ディスカッション
-
懐疑的な意見が多数:speculative decodingは通常のサンプリングと同じ品質とは言えない。
-
トップコメント(Aurornis):論文公開を機に大量生成されるリポジトリの一つで、Claude(AI)でvibecoding(雰囲気任せで生成)されたもの。
-
greedy decodingのみ使用している点を批判する声もあり、samplingパラメータには存在する理由があるとの指摘。
-
Vulkanサポートを求める声も。現実装はCUDA必須のため、対応GPUが限られる。
HNで議論を読む
原文(英語): We got 207 tok/s with Qwen3.5-27B on an RTX 3090