AIエージェントのトークン消費を初分析、GPT-5が最効率でKimi-K2は150万トークン超過

本研究は、AIエージェントが実タスクでどれだけのトークンを消費するかを、8つの最先端LLMのSWE-bench Verified上の実行軌跡から分析した初の体系的研究である。論文はarXivで2026年4月25日に公開された。

主な発見は5つある。第一に、エージェント型タスクはコード推論やコードチャットと比べて最大1000倍のトークンを消費し、その主因は出力ではなく入力トークンである。プロンプト・ツール応答・過去軌跡の積み上げがコストを支配する構造が定量化された。

第二に、同一タスクの実行でもトークン使用量は最大30倍の差が生じる。さらにトークン使用量が多いほど精度が上がるわけではなく、精度は中程度コストでピークに達し高コスト域で飽和する。「予算を積めば解ける」という素朴な前提が反証された形だ。

第三に、モデル間のトークン効率差は顕著で、Kimi-K2とClaude-Sonnet-4.5はGPT-5と比べて平均150万トークン以上多く消費した。同じタスクでもモデル選定だけで請求額が数倍変わる。

第四に、人間の専門家が評価したタスク難易度と実際のトークンコストは弱い相関しか示さず、人間の体感とエージェントの計算負荷にはギャップがある。

第五に、最先端モデルは自身のトークン消費を相関係数最大0.39でしか予測できず、実コストを系統的に過小評価する。事前見積もりを AI 自身に任せられないことを意味しており、FinOps 的な外部計測が実運用の必須要件となる。

押さえるポイント

5W1Hでサクッと理解 誰が arXiv論文著者 
 何を トークン消費の体系分析 
 いつ 2026年4月25日 
 どこで arXiv 
 なぜ コスト構造の可視化 
 どのように SWE-bench Verified分析 

要点AIエージェントがコーディングタスクでどのようにトークンを消費するかを、8つの最先端LLMのSWE-bench Verified上の実行軌跡から分析した初の体系的研究がarXivで公開された。

開発現場

入力トークンが出力より支配的という観測結果は、コンテキスト圧縮・軌跡の短縮・ツール呼び出し回数の削減が性能改善より先にコスト改善に効くことを示す。精度がトークン量に比例せず中程度でピークを打つという曲線は、推論予算の上限設定が実装設計の必須パラメータになったことを意味する。

事業判断

Kimi-K2・Claude-Sonnet-4.5とGPT-5の間に平均150万トークン超の差が観測されたため、同じタスクをこなしてもモデル選定だけで請求額が数倍変わる。モデル提供側の単価競争だけでなく、タスクあたりのトークン効率という新しい比較軸がベンダー選定の表に入った。

リスク・ルール

規制の直接論点は薄い。ただし自治体・政府調達でエージェント型AIを導入する場合、同一タスクで30倍のコスト変動が起きる事実は、予算執行と調達仕様書の書き方（固定額契約か従量契約か）に直結する社会的含意を持つ。

追い風を受ける側

GPT-5を提供するOpenAI同一タスクでKimi-K2・Claude-Sonnet-4.5より平均150万トークン以上少ない消費量が観測され、エージェント用途のコスト効率で優位を示した
コスト可視化・FinOpsツールベンダーモデル自身が自分のトークン使用量を相関0.39でしか予測できないという結果は、外部での実測・モニタリングの必要性を裏付ける
SWE-bench Verifiedベンチ運営主要モデル比較の標準舞台として引用され、ベンチとしての位置づけが強化された

向かい風を受ける側

技術判断 比較する自社ユースケースで GPT-5・Kimi-K2・Claude-Sonnet-4.5 を同一タスクで走らせ、入力トークン／出力トークン／成功率を並べて比較する

事業判断 定義するエージェント案件の見積もりで「1タスクあたりトークン上限」と「上限超過時の打ち切り条件」を契約・SLAに定義する

実装・検証 測る同一タスクを複数回実行し、トークン消費の分散と精度の関係を測り、精度がピークに達するトークン予算を切り分ける

読み込み中...