Prefill-as-a-Service：次世代モデルのKV Cacheはデータセンターをまたいでシェアできるかもしれない

https://arxiv.org/abs/2604.15039

TL;DR

データセンター間でKV cacheを共有することで、高コストなprefill計算の再利用が可能になり、LLM推論コストを大幅に削減できる可能性があります。

Key Takeaways

長いコンテキストの推論コストはprefillが支配的であり、クロスDCキャッシングによって冗長な計算を排除できる
ユーザーごとのライブ動画CDNキャッシング（大容量ファイル・時間制約・ユーザースコープ）と構造的に類似
オフピーク時の価格メリットがキャッシング効果を上回る可能性もあり、論文は新規性を誇張しているかもしれない

Discussion

主なコメント:

[martinald]：LLM prefillへの標準的なCDNキャッシング適用——スケールとタイミングは新しいが、概念自体は新規ではない

HNで議論する

原文（英語）: Prefill-as-a-Service:KVCache of Next-Generation Models Could Go Cross-Datacenter

Type	Link
Added	Apr 22, 2026
Modified	Apr 22, 2026
comments	1
hn_id	47822117
score	28
target_url	https://arxiv.org/abs/2604.15039

📰 トップストーリー 499 items