NVIDIAがオープンモデルファミリー「Nemotron 3」を公開しました。ラインナップの最上位「Nemotron 3 Super」は、MambaとTransformerを組み合わせたハイブリッド混合エキスパート(MoE)アーキテクチャを採用し、総パラメータ数120B(実際にアクティブなのは12B)で、1Mトークンのコンテキストウィンドウを実現。同規模のGPT-OSS-120Bと比較して2.2倍のスループットを達成しています。
NVIDIAはGPU製造で圧倒的なシェアを持つ企業ですが、Nemotron 3はその先を見据えた動きとして注目されます。自社チップに最適化されたオープンモデルを提供することで、NVIDIAエコシステム全体の付加価値を高める狙いがあります。MoEアーキテクチャは、モデル全体のパラメータを「専門家」モジュールに分割し、各推論時に必要な部分のみを活性化することで計算効率を高める手法です。120Bのパラメータを持ちながらアクティブなのは12Bというのは、この設計の恩恵です。
X(旧Twitter)では「NVIDIAがチップだけでなくモデルでも競争力を持ち始めた」との評価が広まり、RTX 5090での動作報告も早速登場しています。r/LocalLLaMaではNemotron 3 NanoとSuperの比較ベンチマークが人気を集め、「同じ精度でOllamaが2倍速くなった」という報告も注目されています。
Hacker Newsでは「NVIDIAが自社チップ上で最適化されたオープンモデルを出すことの利益相反」について議論が起きたものの、モデル自体の品質を評価する声が多数を占めました。確かにNVIDIA製GPUで最高のパフォーマンスを発揮するモデルをNVIDIAが公開することへの疑念はあります。しかし、オープンウェイトで提供される以上、AMD GPUやApple Siliconなど他のハードウェアでも動作するため、特定ハードウェアへのロックインにはならないという見方もあります。
1Mトークンのコンテキストウィンドウは、長大なコードベースや文書の処理において実用的な意味を持ちます。NVIDIAが本格的にモデル開発に参入したことで、オープンモデルの競争はさらに激化しそうです。