← 2026-06-16
Open Source Community 2026-06-16 Source →

NVIDIAがCosmos 3公開——ロボティクス・自律走行向けオムニモーダル世界モデルで物理AIの基盤を狙う

NVIDIAはロボティクスや自律走行向けの物理AI基盤モデル「Cosmos 3」を発表しました。テキスト・画像・映像・音声・行動軌跡を統一的に処理するMoT(Mixture-of-Transformers)アーキテクチャを採用し、物理シミュレーション関連の複数ベンチマークでオープンウェイト首位を達成。Linux Foundation管理のOpenMDW-1.1ライセンスで公開されています。

HPCwireによると、Cosmos 3の核心は「物理世界を理解するAI」の実現にあります。従来のビジョン言語モデル(VLM)が静的な画像や映像を解釈するのに対し、Cosmos 3はロボットの行動軌跡データも含めた多様なモダリティ(入力形式)を同一モデルで扱います。自律走行車や産業ロボットがリアルタイムで周囲の環境を理解・予測するための基盤として設計されており、NVIDIAの「AIはデジタルだけでなく物理世界にも」という戦略を体現するモデルです。

X(旧Twitter)では「NVIDIAが本気でロボティクスAIを狙いに来た」という反応が多く、MoTアーキテクチャへの技術者の高い関心が見られました。r/MachineLearningではMoT(Mixture-of-Transformers)とMoE(Mixture-of-Experts)の違いについての詳細な議論が展開されました。Hacker Newsでは「NVIDIA独自のデータセットによる囲い込み戦略では」という懸念も上位に上がり、オープンソースを標榜しながらもNVIDIA GPUへの依存が深まるという構造的な問題を指摘する声もあります。

物理AIは自動化ロボット・自動運転・AR/VRなど幅広い領域への応用が期待されており、Cosmos 3はその基盤モデルとして有力な候補に位置づけられます。OpenMDW-1.1ライセンスの詳細条件と商用利用の可否については、研究者・企業ともに慎重な確認が必要です。

関連リンク