Open Source Community 2026-06-09 Source →

NVIDIAが5500億パラメータのオープンウェイト推論モデル「Nemotron 3 Ultra 550B」——アクティブ550億で高効率化

NVIDIAは2026年6月4日、スパースMoE（混合専門家）アーキテクチャを採用した「Nemotron 3 Ultra 550B A55B」をリリースしました。総パラメータ数5500億という巨大なモデルでありながら、推論時にアクティブになるパラメータは550億に留まる設計で、計算効率と性能の両立を狙っています。GPUメーカーとして知られるNVIDIAが大規模言語モデルの提供に踏み込んだ格好で、ハードウェアからソフトウェアまで垂直統合するNVIDIAの戦略の一端が見えてきます。

スパースMoEとは、全パラメータを毎回使わず、入力に応じて必要な「専門家」モジュールだけを選択的に呼び出す仕組みです。NVIDIAによると、この設計により密なモデルと比べて推論コストを大幅に抑えられるとしています。Hacker Newsでは「スパースMoE設計の詳細が興味深い。アクティブパラメータ比率がQwen3やDeepSeekと異なるアプローチ」という技術議論が盛り上がり、設計思想の違いへの関心が集まりました。

ただし、現実的なハードルも指摘されています。r/LocalLLaMAでは「H100クラスタがないと動かせない。真の意味でローカルとは言えない」という声が多くの共感を集めており、一般の開発者がセルフホスト可能かどうかは依然として疑問視されています。X上では「NVIDIAがモデルまで出してきた。ハードもソフトも制覇しようとしている」という警戒・感嘆が混じったコメントも目立ちました。

NVIDIAがCUDAエコシステムの覇権を持つ上にオープンウェイトモデルまで供給し始めたことで、AI産業におけるNVIDIAの影響力はさらに拡大します。モデル自体の性能評価と、実際に誰が・どんな環境で使えるかという現実的な検証が今後の焦点になりそうです。

NVIDIAが5500億パラメータのオープンウェイト推論モデル「Nemotron 3 Ultra 550B」——アクティブ550億で高効率化

関連リンク