AIエージェントの送信量を最大92%削減｜OSS Headroom

AI TREND

chopratejas：圧縮OSS公開

AIエージェントがLLMに送るツール出力・ログ・検索結果・会話履歴を送信前にローカルで圧縮するオープンソース「Headroom」が公開され、GitHubで1日あたり+2,473スターと急上昇している。同じ回答を保ったままトークン量を60〜95%削減できると説明されている。

3 の要点を3分で

AIエージェントがLLMへ送るツール出力・ログ・検索結果・会話履歴を、送信前にローカルで圧縮するオープンソースHeadroomがGitHubで1日あたり+2,473スターと急上昇している。同じ回答を保ったままトークン量を60〜95%削減でき、実ワークロードでは17,765→1,408トークン(最大92%削減)の実測値を提示している。

特徴は、元データを捨てずローカルに残し必要時にLLMが取り戻せる可逆圧縮(CCR)を採る点だ。内容の種類(JSON・ソースコード・文章)を自動判別して圧縮方式を使い分ける。標準ベンチのGSM8K・TruthfulQAで精度がほぼ維持されたと報告されている。

提供形態はライブラリ・中継サーバー(プロキシ)・MCPサーバーの3つで、コード改変なしに既存のClaude・Codex・Cursorへ差し込める。複数エージェント間で共有メモリも持てる。削減率はワークロード依存のため、自社データでの実測が導入判断の前提になる。

AIエージェントの送信量を最大92%削減｜OSS Headroomの本文内説明図 — 図解: AIエージェント - がLLMに送るツール出力・ログ・検索結果・会話履歴を送信前にローカル

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

実ワークロードで17,765→1,408トークン、最大92%削減の実測値を提示
ライブラリ・中継サーバー・MCPサーバーの3形態でコード改変なし導入
元データを消さず必要時に復元する可逆圧縮(CCR)を採用

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: chopratejas
何を: 圧縮OSS公開
いつ: 2026年6月6日急上昇
どこで: GitHub
なぜ: トークン代削減
どのように: 送信前ローカル圧縮

背景

AIコーディング支援ツールや自律エージェントは、ツールの実行結果や大量のログを毎回LLMに送るため、トークン消費とコストが膨らみやすい。Headroomはこの「読み込み量」を入力前に縮める処理層（圧縮レイヤー）として設計されている。内容の種類（JSON・ソースコード・文章）を自動判別し、それぞれに合った6種類の圧縮方式を使い分ける。元データはローカルに保持され、必要になればLLMが呼び出して取り戻せる可逆方式（CCR）を採る点が特徴である。

なぜ今注目なのか

エージェント運用ではトークン代と応答速度が直接コストに響くため、回答品質を保ったまま入力量を大幅に削れる手段は実務に効く。ライブラリ・中継サーバー（プロキシ）・MCPサーバーの3形態で提供され、コード改変なしで既存のClaude・Codex・Cursorなどに差し込める点が導入障壁を下げている。GSM8KやTruthfulQAなど標準ベンチマークで精度がほぼ維持されたと示している点も判断材料になる。

17,765トークンを1,408まで縮める圧縮層

Headroomは、AIエージェントがLLMへ送るツールの実行結果・ログ・検索結果・会話履歴を、送信前にローカルで圧縮するオープンソースである。GitHub Trendingで1日あたり+2,473スターと急上昇し、リポジトリは効果をこう示している。

Compress tool outputs, logs, files, and RAG chunks before they reach the LLM. 60-95% fewer tokens, same answers. Library, proxy, MCP server.
出典: chopratejas/headroom

この一文は「ツール出力・ログ・ファイル・RAG(検索拡張生成で使う文書断片)を、LLMに届く前に圧縮し、トークンを60〜95%減らしても同じ回答を返す」という意味だ。実ワークロードでは17,765トークンを1,408トークンまで縮めた、最大92%削減の実測値が提示されている。鍵は内容の種類(JSON・ソースコード・文章)を自動判別し、それぞれに合った圧縮方式を使い分ける点にある。

消さずに縮める「可逆圧縮」という設計

Headroomが従来の要約・切り詰めと違うのは、元データを捨てない点だ。圧縮で縮めても元データはローカルに残り、LLMが必要になったときに呼び出して取り戻せる可逆圧縮(CCR=元に戻せる文脈圧縮)を採用している。

この設計が効くのは、削った情報が後工程で必要になる場面である。要約で消してしまうと取り返せないが、可逆圧縮なら必要時に復元できる。報告では、数学推論を測るGSM8Kや、誤情報への頑健さを測るTruthfulQAといった標準ベンチで精度がほぼ維持されたとされる。入力量を削りながら回答品質を保てるかが導入判断の核心であり、ベンチ結果はその材料になる。

ライブラリ・中継サーバー・MCPの3つの差し込み方

Headroomは既存環境を置き換えず、3つの形態で差し込める。コード改変なしで導入できる点が障壁を下げている。

ライブラリ: アプリのコード内から直接呼び出して圧縮処理を組み込む形態。
中継サーバー(プロキシ): アプリとLLMの通信経路の途中に挟み、通り抜けるデータを自動で圧縮する形態。既存コードに手を入れずに導入しやすい。
MCPサーバー: AIエージェントが外部ツールへ接続する共通規格(MCP)に対応したサーバーとして動かし、Claude・Codex・Cursorといった対応エージェントから利用する形態。

さらに複数のエージェント間で共有メモリを持てるとされ、Claude・Codex・Cursorをまたいだ文脈の受け渡しに使える。導入形態の詳細は公式リポジトリで確認できる。