エージェント向けワールドモデル研究を3×4軸で体系化、400論文を横断整理した包括ロードマップ

本論文は、AIエージェントが目標達成のために環境と持続的に相互作用する際、環境ダイナミクスをモデル化する能力が中心的ボトルネックになるとの問題意識から出発する。課題は「ワールドモデル」という語が研究コミュニティごとに異なる意味で使われてきた点にあり、論文は「レベル×法則」という二軸分類を導入してこれを整理した。
能力レベルはL1 Predictor(1ステップの局所遷移演算子を学習)、L2 Simulator(それらを組み合わせて領域法則を守る多ステップの行動条件付きロールアウトを行う)、L3 Evolver(新しい証拠に対して予測が失敗したときに自律的に自身のモデルを改訂する)の3段階。支配法則は物理・デジタル・社会・科学の4領域で、各領域がワールドモデルに課す制約と失敗しやすい箇所を規定する。
この枠組みを用いて、モデルベース強化学習、動画生成、ウェブ/GUIエージェント、マルチエージェント社会シミュレーション、AI駆動の科学発見にまたがる400件超の論文と100以上の代表システムをレビューし、手法・失敗モード・評価手法をレベルと領域のペアごとに分析している。さらに意思決定中心の評価原則と最小再現可能評価パッケージを提案し、アーキテクチャ指針、未解決問題、ガバナンス課題も提示する。受動的な次ステップ予測から、環境をシミュレートし最終的には作り変えるワールドモデルへと至る道筋を描く包括的ロードマップであり、分断していた研究コミュニティを接続する共通言語として機能する点が最大の価値である。

エージェント向けワールドモデル研究を3×4軸で体系化、400論文を横断整理した包括ロードマップの本文内説明図 — 図解: レベル×法則の軸 - 能力3段階×領域4分類で400件超の研究を一枚に整理

押さえるポイント

能力をL1予測器・L2シミュレータ・L3進化器の3段階に定義し研究を位置づけ可能に
物理・デジタル・社会・科学の4領域で制約と失敗モードを対比整理
400件超の論文と100以上の代表システムを横断レビューした包括ロードマップ

5W1Hでサクッと理解 誰が arXiv掲載の研究者 
 何を ワールドモデル分類を提案 
 いつ 2026年4月25日 
 どこで arXiv 
 なぜ 研究の分断を接続 
 どのように レベル×法則で整理 

何が起きたか

要点arXivで「Agentic World Modeling」と題する論文が公開され、エージェント向けワールドモデルを能力レベル3段階と支配法則4領域の二軸で分類し、400件超の研究を横断整理した。

3つの視点で読む

開発現場

L1（1ステップ遷移予測）・L2（行動条件付き多ステップロールアウト）・L3（予測失敗時の自己改訂）という能力段階が明示され、自社エージェントが今どの層にいるかを技術的に診断する基準が揃った。動画生成・GUI操作・マルチエージェント社会シミュレーションなど別々に進んできた手法を同一枠組みで比較できる。

事業判断

モデルベースRL・ウェブ/GUIエージェント・AI駆動の科学発見を同じ分類で並べたことで、ベンダー選定時に「どの領域(物理/デジタル/社会/科学)でどのレベルの予測精度を出すか」を共通語で要求仕様に落とせる。従来の「ワールドモデル」という曖昧語での提案比較が可能になる。

リスク・ルール

論文はガバナンス課題と失敗モードを領域別に整理しており、社会領域(多エージェント相互作用)や科学領域での誤予測リスクを実装前に切り分ける材料となる。規制の直接的な発効ではないが、エージェントの自律度(L3)が上がるほど評価責任が運用側に移る点を明文化している。

追い風と向かい風

追い風を受ける側

エージェント開発チーム自社技術の立ち位置を「レベル×法則」で説明でき、ロードマップ設計と投資判断の共通語が得られる
研究者・サーベイ読者400件超の論文と100以上のシステムが一枚の分類で俯瞰でき、参入コストが下がる
評価基盤・ベンチマーク提供者意思決定中心の評価原則と最小再現可能評価パッケージが提案され、評価事業の土台が明確化した

向かい風を受ける側

「ワールドモデル」を曖昧に訴求してきたベンダーL1/L2/L3と領域の組み合わせで具体性が問われ、抽象的な主張が通りにくくなる
単一領域特化で閉じていた研究グループ横断比較が容易になり、他領域のベースラインと比較される機会が増える

今やるべきこと

技術判断 確認する自社エージェントがL1/L2/L3のどこにあり、物理/デジタル/社会/科学のどの支配法則下で動くかを論文の分類に沿って確認する

事業判断 定義する外部ベンダーのワールドモデルを評価する際の要求仕様を「レベル×法則」の組で定義し、提案比較の軸に組み込む

実装・検証 試す論文が提案する最小再現可能評価パッケージを自社タスクに当てはめ、1ステップ予測精度と多ステップロールアウトの乖離を測る

時系列タイムライン

2026年4月25日論文「Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond」がarXivに公開
2026年4月下旬レベル×法則の分類軸が研究者コミュニティで共有され始める
今後提案された最小再現可能評価パッケージに基づくベンチマーク整備が課題として残る