モデルからシステムへ:論点の移動
論文の核となる主張はシンプルだ。エージェントAIの次の主要ボトルネックは、より強力な基盤モデルではなく、その周囲を取り囲む実行層の設計にある。著者はこれを 「scaling the harness(ハーネスのスケーリング)」 と呼び、基盤モデル・メモリ基盤・コンテキスト構築・スキルルーティング・オーケストレーションループ・検証&ガバナンス層という 6つの構成要素 を、設計・評価・最適化の一級対象として扱うべきだと述べる。
Our main claim is that future progress in agentic AI will depend as much on system design as on stronger foundation models.
現状の評価がモデル中心で、最終タスクの成功率に偏っており、メモリ・検索・ツール利用・オーケストレーション・検証・ガバナンスを実装の付随物として扱ってきた、という診断がベースにある。
3つのコアボトルネックと新しい評価軸
論文はハーネス内の コアボトルネック を3つに絞る。 コンテキストガバナンス 、 信頼可能なメモリ 、 動的スキルルーティング である。これらを調整・制約するオーケストレーションとガバナンスの仕組みを併せて議論し、ハーネスレベルのベンチマークとして 軌跡品質・メモリ健全性・コンテキスト効率・通信忠実度・検証コスト・長期の安全な進化 を測る研究アジェンダを示した。一発タスク成功率では捕捉できなかった「長期運用での挙動」を可視化しようとする提案である。
議論を具体化するため、著者はPythonネイティブの参照ハーネス CheetahClaws を実装し、 Claude Code および OpenClaw と比較した。OSSとして公開されているため、自社のエージェント構成を6層に分解して照らし合わせる作業が、論文を読むだけで終わらず手元で再現できる。