LLM推論コストを削るKVキャッシュ再利用層｜OSS LMCache

AI TREND

LMCacheコミュニティ：KVキャッシュ層が急上昇

LLM推論で生成される中間データ(KVキャッシュ)を推論エンジンとは別プロセスで保存・再利用し、応答開始時間を短縮するOSS「LMCache」が、GitHub Trendingで1日あたり246スター増のペースで急上昇している。

3 の要点を3分で

LLM推論で生成される中間データ(KVキャッシュ)を再利用して応答開始時間を短縮するOSS「LMCache」が、GitHub Trendingで本日1日あたり246スター増のペースで急上昇している。リポジトリは「LLMのための最速のKVキャッシュ層」を掲げる。

従来のKVキャッシュは推論エンジンのGPUメモリ上に一時的に置かれ、リクエスト終了とともに消えていた。LMCacheはこれを推論エンジンとは独立した常駐プロセスで管理し、CPUメモリ・ローカルディスク・Redis・S3互換ストレージへ階層退避して再利用する。エンジンが落ちてもキャッシュが残る設計で、RAGや対話エージェントなど同じ文脈を繰り返す用途でTTFT(応答開始時間)短縮とスループット向上に直結する。

2025年10月にPyTorch財団のエコシステムへ参加し、NVIDIAの推論基盤Dynamoとも統合された。技術は論文(arXiv:2510.09665)で公開され、ライセンスはApache 2.0。特定ベンダーに依存せず推論エンジンやストレージ間でキャッシュを使い回せるため、LLMを本番運用する企業の基盤部品になりつつある。

LLM推論コストを削るKVキャッシュ再利用層｜OSS LMCacheの本文内説明図 — 図解: AIエージェント - 主要論点を一目で整理

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

推論エンジンとは独立した常駐プロセスで動き、エンジンが落ちてもキャッシュが残る設計
CPUメモリ・ローカルディスク・Redis・S3互換ストレージへ階層退避し再利用できる
2025年10月にPyTorch財団へ参加、NVIDIAの推論基盤Dynamoと統合

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: LMCacheコミュニティ
何を: KVキャッシュ層が急上昇
いつ: 2026年6月14日
どこで: GitHub
なぜ: 推論コスト削減
どのように: キャッシュ別プロセス管理

背景

LLMが長い文章を処理する際、過去の入力を解釈した中間計算結果（KVキャッシュ）を毎回作り直すと無駄が大きい。従来は推論エンジンのGPUメモリ上に一時的に置かれ、リクエストが終わると消えていた。LMCacheはこのキャッシュを推論エンジンとは別のプロセスで管理し、CPUメモリやローカルディスク、外部ストレージへ階層的に退避させて再利用できるようにする。2025年10月にはPyTorch財団に参加し、NVIDIAの推論基盤（Dynamo）との統合も進んだ。

なぜ今注目なのか

対話型エージェントや複数回のやり取り、外部知識を参照する検索拡張生成（RAG）など、同じ文脈を何度も処理する用途でコストと遅延が課題になっている。LMCacheは特定のベンダーに依存せず、複数の推論エンジンやストレージ間でキャッシュを使い回せるため、LLMを本番運用する企業にとって基盤的な部品となりつつある。応答開始までの時間（TTFT）短縮とスループット向上に直結する点が、実運用の意思決定に効く。

GitHubで1日246スター、何が再利用されているのか

オープンソースのキャッシュ管理ソフト「LMCache」が、GitHub Trendingで1日あたり246スター増のペースで上昇している。リポジトリ自身が掲げるのは「LLMのための最速のKVキャッシュ層」だ。

LMCache: Supercharge Your LLM with the Fastest KV Cache Layer
出典: LMCache/LMCache (GitHub)

ここで言うKVキャッシュとは、LLMが長い文章を処理するときに過去の入力を解釈して作る中間計算結果のことだ。従来はこれを推論エンジンのGPUメモリ上に一時的に置き、リクエストが終わると捨てていた。同じプロンプトや共通の前置き、参照ドキュメントが何度も流れ込む用途では、毎回その中間結果を作り直すことになり、無駄が大きかった。

LMCacheはこの中間結果を「使い回せる資産」として保存し、次に同じ文脈が来たときに再利用する。これにより応答開始までの時間(TTFT、最初の1文字が返るまでの待ち時間)を短縮し、同時に捌けるリクエスト数(スループット)を引き上げる。