NVIDIAは2026年6月1日、テキスト・画像・動画・音声・アクションをネイティブに理解・生成できる世界初の完全オープンオムニモデル「Cosmos 3」をHugging Faceで公開しました。ロボットや自動運転システム向けの物理精度の高いシミュレーションを可能にするこのモデルは、公開からわずか4日でGitHubスターが約8,700件に達し、8つ以上のオープンモデルリーダーボードで1位を獲得しています。
NVIDIAのブログによると、Cosmos 3の最大の特徴は従来のCosmosリリースからの大きな進化である「オムニモデル」構造にあります。Mixture-of-Transformers(MoT)アーキテクチャを採用し、世界生成・物理推論・アクション生成を単一モデルで統合しました。「推論してから行動する」という設計思想のもと、視覚言語モデル(VLM)としての理解能力と生成能力を同時に備えた点が従来モデルと一線を画します。
モデルは用途に応じた2種類の重みが提供されています。Cosmos 3 Nanoは16Bパラメータ(推論8B+生成8B)の軽量版で、RTX PRO 6000 GPUなどワークステーション級の計算資源でも動作します。一方、Cosmos 3 Superは64Bパラメータ(推論32B+生成32B)の大規模版で、NVIDIA HopperおよびBlackwellアーキテクチャのGPUを必要とします。いずれもHugging Faceで「nvidia/Cosmos3-Nano」「nvidia/Cosmos3-Super」として公開されており、合成データ生成(SDG)用データセットも同時に提供されています。
X上ではロボティクスや自動運転の研究者アカウントが相次いで賞賛の声を上げており、「8つ以上のオープンモデルリーダーボードでトップを取るのは前代未聞」という投稿が多く見られます。r/MachineLearningでは「物理AIがついにオープンソースの時代に入った」との興奮とともに、NVIDIAが構築したCosmos Coalitionパートナー各社の顔ぶれへの関心も高まっています。一方、Hacker Newsでは「オープン化で研究コストが劇的に下がる」という期待とともに、「エコシステムの断片化が進むと実際の普及が遅れるのではないか」という懸念も議論されています。
スマートスペース・倉庫ロボット・自動運転車など広範な物理AI分野への応用が期待されるCosmos 3は、NVIDIAがハードウェア販売だけでなくソフトウェアエコシステムの構築でも主導権を握ろうとしていることを示す重要な一手です。オープンウェイトモデルとして公開されることで、研究機関や中小企業でも最先端の物理AIシミュレーションを活用できる環境が整いつつあります。