Prefill-as-a-Service: 次世代モデルのKV Cacheはデータセンターをまたげるか

https://arxiv.org/abs/2604.15039

TL;DR

LLMのKV Cacheをデータセンター間で共有し、重複するprefill計算をなくすことを研究者たちが提案しています。

Key Takeaways

  • KV Cacheをデータセンター間で再利用することで、リクエストごとに共通のシステムプロンプトを再計算するコストを削減できる
  • ライブ動画向けCDNキャッシング(コンテンツ配信ネットワーク)に似た仕組み:ユーザーごと、時間的に敏感、非常に大きなファイルを扱う点が共通
  • 実際の恩恵は地理的なキャッシュ分散よりも、時間帯別料金の裁定取引から得られる可能性が高い

Discussion

Top comments:

Discuss on HN


原文(英語): Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter


Type Link
Added Apr 22, 2026
Modified Apr 22, 2026
comments 1
hn_id 47822117
score 41
target_url https://arxiv.org/abs/2604.15039