Sakana AIと有限責任あずさ監査法人が2026年6月26日、LLMエージェントの長期的な経営能力を測るベンチマークCoffeeBenchを公開した。コーヒー業界のサプライチェーンを模し、農家A・B、焙煎店A・B、小売店A・Bの6社が90日間で純利益の最大化を競う経済シミュレーション環境である。

評価では焙煎店Aを各モデルに運営させ、他5社をClaude Sonnet 4.6に固定して3回平均で比較した。全モデルが受動的なベースラインを上回ったが、Claude Haiku 4.5だけが赤字となった。分析や方針は考え続けるのに行動せず待機を繰り返す「思考と行動の乖離」を3試行すべてで起こしたためで、短期ベンチでは見えない弱点が露わになった。高成績モデルは農家・小売店双方へ積極的に交渉や販促を仕掛ける傾向があった。

先行するVending-BenchProject Vendが消費者直販を扱ったのに対し、CoffeeBenchは企業間取引を含むマルチエージェント環境を再現する。業績プレッシャー下の会計不正研究への拡張も視野に入れ、ICML2026のワークショップ「Failure Modes in Agentic AI」で発表予定である。