エージェントAIの次の壁｜ハーネス設計と6層構成

AI TREND

SafeRL-Lab著者ら：ハーネス設計論文公開

arXivに公開された論文が、エージェントAIの次の主要ボトルネックを基盤モデルの規模拡大ではなく、その周囲を取り囲む実行層「ハーネス」のシステム設計に置くべきだと主張し、参照実装CheetahClawsを公開した。

3 の要点を3分で

モデルからシステムへ：論点の移動

論文の核となる主張はシンプルだ。エージェントAIの次の主要ボトルネックは、より強力な基盤モデルではなく、その周囲を取り囲む実行層の設計にある。著者はこれを 「scaling the harness（ハーネスのスケーリング）」 と呼び、基盤モデル・メモリ基盤・コンテキスト構築・スキルルーティング・オーケストレーションループ・検証＆ガバナンス層という 6つの構成要素 を、設計・評価・最適化の一級対象として扱うべきだと述べる。

Our main claim is that future progress in agentic AI will depend as much on system design as on stronger foundation models.
出典: arXiv: From Model Scaling to System Scaling

現状の評価がモデル中心で、最終タスクの成功率に偏っており、メモリ・検索・ツール利用・オーケストレーション・検証・ガバナンスを実装の付随物として扱ってきた、という診断がベースにある。

3つのコアボトルネックと新しい評価軸

論文はハーネス内の コアボトルネック を3つに絞る。 コンテキストガバナンス 、 信頼可能なメモリ 、 動的スキルルーティング である。これらを調整・制約するオーケストレーションとガバナンスの仕組みを併せて議論し、ハーネスレベルのベンチマークとして 軌跡品質・メモリ健全性・コンテキスト効率・通信忠実度・検証コスト・長期の安全な進化 を測る研究アジェンダを示した。一発タスク成功率では捕捉できなかった「長期運用での挙動」を可視化しようとする提案である。

議論を具体化するため、著者はPythonネイティブの参照ハーネス CheetahClaws を実装し、 Claude Code および OpenClaw と比較した。OSSとして公開されているため、自社のエージェント構成を6層に分解して照らし合わせる作業が、論文を読むだけで終わらず手元で再現できる。

エージェントAIの次の壁｜ハーネス設計と6層構成の本文内説明図 — 図解: AIエージェント - arXivに公開された論文がエージェントAIの次の主要ボトルネック

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

ハーネスを基盤モデル・メモリ・コンテキスト・ルーティング・オーケストレーション・検証の6層で定義
コアボトルネックはコンテキストガバナンス・信頼可能なメモリ・動的スキルルーティングの3点
評価軸を一発成功率から軌跡品質・メモリ健全性・検証コストへ拡張する研究アジェンダを提示

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: SafeRL-Lab著者ら
何を: ハーネス設計論文公開
いつ: 2026年5月26日
どこで: arXiv
なぜ: 次のボトルネック提起
どのように: 参照実装と比較分析

何が起きたか

arXivに公開された論文が、エージェントAIの次の主要ボトルネックを基盤モデルの規模拡大ではなく、その周囲を取り囲む実行層「ハーネス」のシステム設計に置くべきだと主張し、参照実装CheetahClawsを公開した。

3つの視点で読む

技術 / 事業 / 規制 — この変化があなたの判断にどう効くか。

技術への影響

エージェント性能はモデル単体ではなく、メモリ基盤・コンテキスト構築・スキルルーティング・オーケストレーション・検証の相互作用から立ち上がる、と論文は明示した。実装側は「どのモデルを使うか」より「どの層をどう配線するか」を設計対象として切り出せるようになる。

市場・事業への影響

Claude CodeとOpenClawという既存エージェント実装を比較対象に置いたことで、ハーネス層が製品比較の評価軸になる土台ができた。一発タスク成功率だけでベンダーを選ぶ調達基準は、軌跡品質・メモリ健全性・検証コストといった運用指標に置き換わる材料が揃った。

規制・リスク

論文は検証＆ガバナンス層をハーネスの構成要素として一級扱いし、監査可能性・永続性・モジュール性・検証可能性をアーキテクチャ要件に挙げた。安全な進化（safe evolution over time）を評価軸に含める提案は、長期運用エージェントの説明責任を実装レベルで議論する出発点になる。

機会と脅威

この変化で機会を得るのは誰か、脅威にさらされるのは誰か。

機会 3

ハーネス層を独自に作り込む実装チーム

モデル選定だけでなくメモリ・コンテキスト・検証の設計が差別化要因として正当に評価される土台ができた

CheetahClawsを参照したいOSS開発者

Pythonネイティブの参照実装が公開され、Claude Code・OpenClawとの比較ポイントが明示された

エージェント評価ベンチマーク提供者

軌跡品質・メモリ健全性・コンテキスト効率など新評価軸の研究アジェンダが提示された

脅威 2

一発タスク成功率のみを訴求してきたエージェント製品

評価軸が軌跡品質・検証コスト・安全な進化へ拡張されると、単一指標の優位は相対化される

モデル更新だけで性能向上を期待する調達側

論文は今後の進歩がシステム設計に同程度依存すると結論しており、モデル差し替え戦略の説明力が弱まる

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

自社エージェントのハーネスを6層（基盤モデル・メモリ・コンテキスト・ルーティング・オーケストレーション・検証）に分解し、Claude Code・OpenClaw・CheetahClawsとの構成差を比較する。

事業を決める人へ

調達・PoC評価で一発成功率に加え、軌跡品質・メモリ健全性・検証コストをどう測るかの基準を定義する。

手を動かす人へ

CheetahClawsをローカルで動かし、コンテキストガバナンス・メモリ・スキルルーティングの3ボトルネックが自社ワークロードでどう現れるかを試す。

時系列タイムライン

2026年5月26日 arXivで「From Model Scaling to System Scaling」公開、CheetahClawsをOSSで提示

情報ソース

From Model Scaling to System Scaling: Scaling the Harness in Agentic AI 一次公式学術
CheetahClaws 参照実装 (GitHub) 実装OSS
モデル配布: What is Huggingface? モデル配布
モデル配布: What is Spaces? モデル配布

学術の記事

読み込み中...

エージェントAIの次の壁｜ハーネス設計と6層構成

SafeRL-Lab著者ら：ハーネス設計論文公開

モデルからシステムへ：論点の移動

3つのコアボトルネックと新しい評価軸

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

機会と脅威

今やるべきこと

時系列タイムライン

関連動画

情報ソース

人気記事ランキング

学術の記事

SafeRL-Lab著者ら：ハーネス設計論文公開

モデルからシステムへ：論点の移動

3つのコアボトルネックと新しい評価軸

関連リンク

時系列タイムライン

SNSの反応

主な声

関連動画

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

学術の記事