Prefill-as-a-Service: 次世代モデルのKV Cacheはデータセンター横断で共有できるか

https://arxiv.org/abs/2604.15039

TL;DR

推論レイテンシを削減するため、KV キャッシュのプリフィルをCDNのエッジキャッシュのようにデータセンター間で分散させる手法を提案。

Key Takeaways

  • LLMのプリフィルをCDN問題として捉える:時間制約があり、ファイルサイズが大きく、ユーザー単位でスコープされる
  • データセンター横断のKV キャッシュ共有により、同一プロンプトへの冗長な計算を大幅に削減できる可能性がある
  • キャッシュの無効化とユーザー単位のスコープ管理により、通常のCDNキャッシングよりはるかに難易度が高い

Discussion

トップコメント:

HN(Hacker News)で議論を読む


原文(英語): Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter


Type Link
Added Apr 22, 2026
Modified Apr 22, 2026
comments 1
hn_id 47822117
score 43
target_url https://arxiv.org/abs/2604.15039