本サーベイ論文は、近年のLLMが競技プログラミングからリポジトリ規模のソフトウェア開発まで対応できるようになった状況を踏まえ、コードを単なる出力対象ではなく『エージェントの推論・行動・環境モデリング・実行ベース検証を支える運用基盤』として捉え直す視点を提示した。

論文の構成は3層に整理されている。第1層のハーネスインターフェースは、コードがエージェントを推論・行動・環境モデリングへと接続する役割を担う。第2層のハーネスメカニズムは、長期実行のための計画・記憶・ツール利用、およびフィードバック駆動の制御と最適化を扱う。第3層のスケーリングでは、単一エージェントからマルチエージェント設定への拡張を議論し、共有コード成果物が協調・レビュー・検証を支える構造を示す。

応用領域はコーディングアシスタント、GUI/OS自動化、身体化エージェント、科学的発見、パーソナライゼーション、DevOps、エンタープライズワークフローに及ぶ。これは『エージェント=コードを書くもの』という狭い理解を超え、コードがエージェントの実行環境そのものになっていることを示している。

未解決課題として、最終タスク成功以外の評価指標、不完全フィードバック下での検証、リグレッションを起こさないハーネス改善、複数エージェント間の一貫した共有状態管理、安全クリティカル操作への人間監視、マルチモーダル環境への拡張が挙げられた。これらは実装現場が直面する具体的な設計判断と直結する。

42名の共著という規模は、エージェント基盤研究が個別実装の段階から共通設計言語を求める段階に入ったことを示しており、関連論文集がGitHubで公開されたことで継続的な参照点として機能する。