NVIDIAが世界生成・物理推論・行動生成を1つに統合した物理AI向け基盤モデルCosmos 3を公開した。Hugging Face上で80億パラメータのNano320億パラメータのSuperの2種が配布され、生成パイプライン用のライブラリ統合、学習用スクリプト、合成データセットも同時に提供される。

従来の物理AI開発では、世界生成・制御付き生成・シーン理解・行動方針生成と機能ごとに別々のモデルと推論経路を使い分ける必要があった。Cosmos 3はこれらを混合トランスフォーマー(Mixture-of-Transformers)という単一構造に束ね、テキスト・画像・動画・音声・行動を1つの処理として扱う。Nanoはワークステーション級GPUのRTX PRO 6000向け、Superは大規模合成データ生成・研究向けと役割が分かれる。

ライセンスはLinux Foundationが管理するOpenMDW 1.1を採用し、モデルと合成データを単一ライセンスで扱える。ロボット・空間推論・人体動作などの合成学習データも公開され、収集が難しい安全シナリオの学習を計算で補える。Diffusersライブラリ統合で、数行のコードから生成パイプラインを利用できる。