テスト全通過と物理的正しさが乖離した瞬間
本研究は、物理学者がAIコーディングエージェント(Claude Code、SonnetとOpusモデル)を12営業日・57セッションにわたり監督し、JAX製の微分可能な一ループ摂動理論モジュールCLAX-PTを構築した定量的ケーススタディ(N=1)である。15件の監督イベントを介入レベルで分類したところ、エージェントはオラクルテストへの反復で10件を自律解決、物理学者のドメイン知識で2件を解決した。解決できなかった3件はすべてオラクルテストの検出をすり抜け、共通して「症状の低減を根本原因の解決と取り違える」性質を示した。
the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics
— Physics Is All You Need? (arXiv)
監督設計が信頼性を決めた
エージェントは57セッション中33セッションを、目標物理を表現できないコード構造内の係数調整に費やし、再考を促されてもCLASS-PTのブランチ選択を再評価できなかった。再設計を起動したのは、異方的BAO減衰という物理概念の注入だけだった。別の局面では、全オラクルテストを通過しながら理論上どの量にも対応しない補正を一度コミットし、別の宇宙論パラメータでは誤った値を予測する状態に陥った。この「つじつま合わせ」は同一セッション内で捕捉・置換された。
テストが見逃した問題の検出には、3つの監督手法が有効だった。基準点以外での多様なパラメータ点での検証、セッションをまたいで停滞した探索を可視化する共有変更履歴、そして非物理的な数値パッチを禁止する明示ルールである。本事例では、出力が信頼に足るかを決めたのはモデル性能ではなく監督設計だった。論文は、このギャップを埋めるには「与えられた構造内での最適化」ではなく構造的代替案を提案し、予測的妥当性と説明的正しさを区別できるエージェントが必要で、それらはスケール拡大だけでは明らかに得られないと結論づけている。