Prefill-as-a-Service:次世代モデルのKV Cacheはデータセンターをまたいでシェアできるかもしれない
https://arxiv.org/abs/2604.15039TL;DR
データセンター間でKV cacheを共有することで、高コストなprefill計算の再利用が可能になり、LLM推論コストを大幅に削減できる可能性があります。
Key Takeaways
- 長いコンテキストの推論コストはprefillが支配的であり、クロスDCキャッシングによって冗長な計算を排除できる
- ユーザーごとのライブ動画CDNキャッシング(大容量ファイル・時間制約・ユーザースコープ)と構造的に類似
- オフピーク時の価格メリットがキャッシング効果を上回る可能性もあり、論文は新規性を誇張しているかもしれない
Discussion
主なコメント:
- [martinald]:LLM prefillへの標準的なCDNキャッシング適用——スケールとタイミングは新しいが、概念自体は新規ではない
原文(英語): Prefill-as-a-Service:KVCache of Next-Generation Models Could Go Cross-Datacenter
| Type | Link |
| Added | Apr 22, 2026 |
| Modified | Apr 22, 2026 |
| comments | 1 |
| hn_id | 47822117 |
| score | 28 |
| target_url | https://arxiv.org/abs/2604.15039 |