← 2026-06-08
Open Source Community 2026-06-08 Source →

NVIDIAがGTC Taipeiでフィジカル AI向けオープン世界基盤モデル「Cosmos 3」を公開、200兆トークンのマルチモーダルデータで学習しロボティクス・自動運転に対応

NVIDIAは2026年6月1日、GTC Taipeiにてフィジカル AI(物理世界で動作するAI)向けの完全オープン世界基盤モデル「Cosmos 3」を発表した。テキスト・画像・動画・環境音・アクションを統合した「オムニモデル」として世界初のリリースとされ、ロボティクスおよび自動運転車向けの合成データ生成に特化している。

NVIDIA公式プレスリリースによると、Cosmos 3は「混合トランスフォーマー(Mixture-of-Transformers)」アーキテクチャを採用しており、推論トランスフォーマーと専門生成トランスフォーマーを組み合わせることで、動画やアクション軌跡を生成する前に物体間の相互作用・動き・空間時間的な関係を推論できる点が最大の特徴だ。200兆トークン規模のマルチモーダルデータで学習されており、オープンモデルの中ではArtificial Analysis・Physics-IQ・PAI-Bench・R-Bench(世界生成精度)、RoboLab・RoboArena(アクションポリシー)、Vantage-Bench・TARリーダーボード(視覚理解)でいずれも首位を獲得したとされる。モデルバリアントは3種類用意されており、高精度・高品質向けの「Cosmos 3 Super」、リアルタイム推論向けの「Cosmos 3 Nano」、そしてエッジ推論向けの「Cosmos 3 Edge」(近日公開予定)となっている。同時にNVIDIAは、Agile Robots・Black Forest Labs・Generalist・LTX・Runway・Skild AIなどを創設メンバーとする「NVIDIA Cosmos Coalition」を立ち上げ、次世代オープン世界モデルの開発を業界横断的に推進するとした。

X上ではロボティクス研究者から「物理世界シミュレーションの民主化」として高評価を受け、Cosmos Coalition参加企業の顔ぶれも話題となった。r/MachineLearningでは「完全オープンな物理AIオムニモデルの初リリース」として技術詳細への質問が殺到し、HackerNewsではMixture-of-Transformersアーキテクチャの斬新さに注目したベンチマーク再現を試みる投稿が多数現れた。

NVIDIAはGPUインフラに加え、AIモデル自体のオープン化という形でフィジカルAIエコシステムの標準化を主導しようとしている。Cosmos 3がロボティクス・自動運転分野の研究加速に与える影響は大きく、物理AIのトレーニングと評価サイクルを「数カ月から数日に」短縮するという同社の主張が実証されれば、産業応用の普及が一気に加速するかもしれない。

関連リンク