7Bで大型モデルを指揮｜Sakana AIのConductor

学術日本公式ブログ 05/03 13:05

Sakana AIが公開した『Learning to Orchestrate Agents in Natural Language with the Conductor』は、AIを直接問題解決にあてるのではなく、他のAIに仕事を委譲する「マネージャー」として訓練した研究である。7BパラメータのConductorモデルを強化学習でエンドツーエンドに訓練し、GPT-5・Gemini・Claudeおよびオープンソースモデルを含むプールを指揮させた。

Conductorはコードを実行するのではなく、自然言語で「どのエージェントを呼ぶか」「どのサブタスクを与えるか」「過去のどのメッセージを文脈に渡すか」を指定するワークフローを出力する。報酬最大化のみから、単純な事実質問は1回の問い合わせで済ませ、難しいコーディング問題ではプランナー・実行役・検証役のパイプラインを自律的に組み上げる挙動が現れた。

結果として、7BのConductorはプール内のどの個別モデルよりも高い性能を示し、発表時点でLiveCodeBench 83.9%・GPQA-Diamond 87.5%を記録した。Mixture-of-Agentsのような高コストなマルチエージェントベースラインも、わずかなコストで上回った。さらにConductorが自分自身をワーカーとして選ぶ『再帰的テスト時スケーリング』により、前の出力を読み直して修正ワークフローを組み直す動作が可能で、推論時計算のスケーリング軸が増えた。

本研究はICLR2026に採択され、同社の新マルチエージェントシステム『Sakana Fugu』の基盤技術として既に組み込まれている。読者にとっての含意は明確で、マルチエージェントを設計する際、固定ワークフローや単純ルーターではなく、学習された指揮役を置く選択肢が数値根拠付きで増えた。

7Bで大型モデルを指揮｜Sakana AIのConductorの本文内説明図 — 図解: 小が大を指揮 - 7Bの指揮役が複数の大規模モデルを上回る仕組み

押さえるポイント

7Bの指揮役が、プール内のGPT-5やClaudeなど全モデル単体を上回る性能を記録
LiveCodeBench 83.9%・GPQA-Diamond 87.5%を発表時点の最高記録として樹立
Mixture-of-Agentsなどの高コスト手法を大幅に低いコストで上回った

5W1Hでサクッと理解 誰が Sakana AI 
 何を Conductor発表 
 いつ 2026年4月27日 
 どこで 公式ブログ 
 なぜ マルチ指揮を学習 
 どのように 7BモデルをRL訓練 

何が起きたか

要点Sakana AIが、GPT-5・Gemini・Claudeなどフロンティアモデル群を自然言語で指揮する7Bの『Conductor』モデルを強化学習で訓練し、個別モデル単体より高い精度を低コストで達成したと発表した。

3つの視点で読む

開発現場

強化学習によるエンドツーエンド訓練で、小規模モデルが「どのエージェントに、どのサブタスクを、どの文脈で渡すか」を自然言語で出力するメタプロンプトエンジニアとして機能した。固定ワークフローや単純ルーターに依存してきた既存のマルチエージェント設計に対し、タスク難易度に応じて1回問い合わせから計画・実行・検証の多段パイプラインまで動的に構築する動作が観測された。

事業判断

7Bという比較的小さい指揮役が高コストなMixture-of-Agentsを低コストで上回った実測値は、マルチエージェント運用の単価構造を変える。同社の商用システム『Sakana Fugu』の基盤技術として既に組み込まれており、日本発のマルチエージェント製品が具体的なベンチマーク数値を伴って市場に出る段階に入った。

リスク・ルール

規制直結の論点は薄い。ただし複数フロンティアモデルを動的に呼び分ける設計は、利用規約・データ送信先・ログ保存責任が単一モデル運用より複雑になるため、社内のモデル利用ガバナンス定義を実装側に求める。

追い風と向かい風

追い風を受ける側

Sakana AIICLR2026採択の研究成果を自社製品Sakana Fuguの基盤に直結させ、日本発マルチエージェントの技術的優位を可視化した
マルチモデル併用を前提にする開発現場単一ベンダー固定より、複数モデルを用途別に呼び分ける設計の性能・コスト優位が数値で示された
小規模モデル運用者7Bクラスでも指揮役として大型モデル群を上回れることが示され、ローカル・エッジ側の役割設計に新しい選択肢が出た

向かい風を受ける側

固定ワークフロー型のマルチエージェント基盤Mixture-of-Agentsのような高コストベースラインが、動的オーケストレーションに性能・コスト両面で上回られた
単一フロンティアモデル頼みの構成個別モデル単体ではConductor構成に劣る結果が示され、単一モデル依存の優位性の根拠が1つ減った

今やるべきこと

技術判断 確認する自社の現行LLM基盤でGPT-5・Claude・Geminiを並行呼び出しできる権限・課金・ログ境界を確認する

事業判断 定義するマルチエージェント導入の評価指標を、精度だけでなく1問あたりコスト・呼び出しモデル内訳・レイテンシで定義する

実装・検証 測る自社タスクでMixture-of-Agents相当の構成とシンプルなルーター構成のコスト・精度差を測り、Conductor型が効く領域を切り分ける

時系列タイムライン

2026年4月（数日前） Sakana AIが関連研究『TRINITY』を発表
2026年4月27日 Sakana AIが『Conductor』研究と製品『Sakana Fugu』の基盤技術をブログで公開
ICLR2026（採択済み）本研究がICLR2026に採択

情報ソース

Learning to Orchestrate Agents in Natural Language with the Conductor 一次情報公式技術
Learning to Orchestrate Agents in Natural Language with the Conductor (arXiv) 論文技術
OpenReview: Learning to Orchestrate Agents 査読技術

学術の記事

読み込み中...

7Bで大型モデルを指揮｜Sakana AIのConductor

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

時系列タイムライン

関連動画

情報ソース

人気記事ランキング

学術の記事

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

時系列タイムライン

SNSの反応

主な声

関連動画

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

学術の記事