Prefill-as-a-Service: 次世代モデルのKV Cacheはデータセンター横断で共有できるか
https://arxiv.org/abs/2604.15039TL;DR
推論レイテンシを削減するため、KV キャッシュのプリフィルをCDNのエッジキャッシュのようにデータセンター間で分散させる手法を提案。
Key Takeaways
- LLMのプリフィルをCDN問題として捉える:時間制約があり、ファイルサイズが大きく、ユーザー単位でスコープされる
- データセンター横断のKV キャッシュ共有により、同一プロンプトへの冗長な計算を大幅に削減できる可能性がある
- キャッシュの無効化とユーザー単位のスコープ管理により、通常のCDNキャッシングよりはるかに難易度が高い
Discussion
トップコメント:
原文(英語): Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter
| Type | Link |
| Added | Apr 22, 2026 |
| Modified | Apr 22, 2026 |
| comments | 1 |
| hn_id | 47822117 |
| score | 43 |
| target_url | https://arxiv.org/abs/2604.15039 |