AIに90日間会社経営をさせたら｜CoffeeBench公開

学術日本コーヒー業界模擬環境 06/28 21:05

AI TREND

Sakana AIとあずさ：経営ベンチ公開

Sakana AIと有限責任あずさ監査法人が、コーヒー業界のサプライチェーンを模した経済シミュレーション上でLLMエージェントの90日間の経営能力を測る新ベンチマーク「CoffeeBench」を公開した。

3 の要点を3分で

Sakana AIと有限責任あずさ監査法人が2026年6月26日、LLMエージェントの長期的な経営能力を測るベンチマークCoffeeBenchを公開した。コーヒー業界のサプライチェーンを模し、農家A・B、焙煎店A・B、小売店A・Bの6社が90日間で純利益の最大化を競う経済シミュレーション環境である。

評価では焙煎店Aを各モデルに運営させ、他5社をClaude Sonnet 4.6に固定して3回平均で比較した。全モデルが受動的なベースラインを上回ったが、Claude Haiku 4.5だけが赤字となった。分析や方針は考え続けるのに行動せず待機を繰り返す「思考と行動の乖離」を3試行すべてで起こしたためで、短期ベンチでは見えない弱点が露わになった。高成績モデルは農家・小売店双方へ積極的に交渉や販促を仕掛ける傾向があった。

先行するVending-BenchやProject Vendが消費者直販を扱ったのに対し、CoffeeBenchは企業間取引を含むマルチエージェント環境を再現する。業績プレッシャー下の会計不正研究への拡張も視野に入れ、ICML2026のワークショップ「Failure Modes in Agentic AI」で発表予定である。

AIに90日間会社経営をさせたら｜CoffeeBench公開の本文内説明図 — 図解: AIエージェント - SakanaAIと有限責任あずさ監査法人がコーヒー業界のサプライチェーン

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

コーヒー業界6社で90日間の純利益を競う長期経営ベンチマーク
最新モデル間でも経営成績に大きな差が出ることを確認
Claude Haiku 4.5は『考えるが動かない』停滞で赤字に転落

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Sakana AIとあずさ
何を: 経営ベンチ公開
いつ: 2026年6月26日
どこで: コーヒー業界模擬環境
なぜ: 長期経営力の測定
どのように: 6社90日利益競争

背景

近年のLLMエージェントは、ソフトウェア開発やウェブ操作のような複雑で長期的なタスクをこなせるようになり、企業運営のような継続的な意思決定への応用にも関心が集まっている。先行研究には、自動販売機の運営能力を測る「Vending-Bench」や、実際にオフィスへ自販機を置いた実証実験「Project Vend」がある。これらは消費者へ直接販売するビジネスを扱うが、現実の経済では企業同士が継続的に取引するビジネスも重要な役割を果たす。CoffeeBenchは、異なる役割の企業がそれぞれ独立して経営判断を下す複数主体型（マルチエージェント）の環境を、研究可能な複雑さに抑えて再現することを狙ったものである。

なぜ今注目なのか

LLMが企業活動の一部を担う社会を見越し、価格交渉・発注・在庫管理・資金繰りといった実務的な長期判断でモデルの実力差を可視化する枠組みである点が重要だ。最終的な利益だけでなく、各モデルの行動特性まで観察でき、特定モデルが「考えているのに動かない」停滞現象を起こすなど、短期ベンチマークでは見えない弱点が浮かぶ。さらに、強い業績プレッシャー下での会計不正（架空取引や押し込み販売）の発生メカニズムを研究する基盤としての拡張も視野に入れており、AIガバナンスの観点でも注目される。

コーヒー業界6社で90日間、利益を競わせる

Sakana AIと有限責任あずさ監査法人が2026年6月26日、LLMエージェントの長期的な経営能力を測るベンチマーク「CoffeeBench」を公開した。舞台はコーヒー業界のサプライチェーンで、農家A・B、焙煎店A・B、小売店A・Bの6社が90日間で純利益の最大化を競う経済シミュレーション環境である。

Sakana AIと有限責任あずさ監査法人は、コーヒー業界のサプライチェーンを舞台にLLMエージェントの長期的な経営能力を評価する「CoffeeBench」を開発。
出典: Sakana AI Blog

先行研究には自動販売機の運営能力を測る「Vending-Bench」や、実際にオフィスへ自販機を置いた実証実験「Project Vend」がある。これらは消費者へ直接売るビジネスを扱った。CoffeeBenchはそこに企業同士が継続して取引する関係(BtoB)を加え、異なる役割の会社がそれぞれ独立して経営判断を下すマルチエージェント(複数主体型)環境を、研究で扱える複雑さに抑えて再現した点が新しい。

Claude Haiku 4.5は『考えるのに動かず』赤字に

もっとも目を引いたのはClaude Haiku 4.5だ。全モデルがベースラインを超えたなかで、このモデルだけが赤字に沈んだ。原因は能力不足ではなく、行動の欠落だった。

Haiku 4.5は分析や方針は考え続けるのに、実際の発注や交渉といった行動を起こさず、待機を繰り返した。Sakana AIはこれを「思考と行動の乖離」と呼び、3試行すべてで同じ停滞が起きたと報告している。頭の中では経営を続けているのに、手が動かないまま90日が過ぎていく状態だ。

この現象は、短期の正答率ベンチマークでは決して表に出ない。1問1答なら正しく答えられても、長期の連続判断では「考えたうえで動き続ける」ことが別の能力として要る。エージェントとしてモデルを業務に置くとき、スコアの高さだけを根拠に選ぶと、実運用でこの落とし穴を踏みかねない。

会計不正の研究基盤としての拡張

CoffeeBenchが監査法人と共同で作られた理由は、利益測定にとどまらない狙いがあるからだ。Sakana AIは、強い業績プレッシャー下で会計不正(架空取引や押し込み販売)がどう生まれるかを研究する基盤として、この環境を拡張する構想を示している。

LLMに利益最大化という目標と業績圧力を同時に与えたとき、目標達成のために不適切な取引へ走るのか、走るならどんな条件でかを、再現可能なシミュレーションで観察できる。これはAIガバナンスの観点で重要だ。AIに業務判断を任せる社会では、「正しく稼ぐか」だけでなく「圧力下でどんな逸脱を起こすか」を事前に測る枠組みが要る。

なお本研究はICML2026のワークショップ「Failure Modes in Agentic AI(エージェント型AIの失敗様式)」で発表予定である。失敗の起き方そのものを研究対象に据えている点に、このベンチマークの性格がよく表れている。