arXivに投稿された論文「The Last Human-Written Paper: Agent-Native Research Artifacts」は、従来の論文形式が抱える2つの構造的コストを指摘する。分岐する研究過程を線形な物語に圧縮する際に失敗実験や棄却仮説を捨てる「Storytelling Tax」と、査読者に十分な散文とエージェントに十分な仕様の間のギャップを放置する「Engineering Tax」である。これらは人間の読者には許容されてきたが、AIエージェントが論文を理解・再現・拡張する段階では致命的になる。
提案されたAra(Agent-Native Research Artifact)は、論文を機械実行可能な研究パッケージに置き換えるプロトコルで、科学的論理、完全仕様付きの実行可能コード、圧縮で捨てられていた失敗を保持する探索グラフ、すべての主張を生の出力に接地する証拠の4層からなる。エコシステムを支える3機構として、開発中の意思決定と行き詰まりを記録するLive Research Manager、既存PDFとリポジトリをAraに変換するAra Compiler、客観的チェックを自動化するAra対応査読システムが提案された。
評価結果は具体的で、PaperBenchでの質問応答精度が72.4%から93.7%へ、RE-Benchでの再現成功率が57.4%から64.4%へ上昇した。一方でRE-Benchの5つの拡張タスクでは、保存された失敗トレースが進捗を加速する場合と、能力の高いエージェントを前回実行の枠外に踏み出させない制約として働く場合の両方が観測された。エージェント設計における「失敗の記録」の扱い方自体が論点となる知見である。