Model Releases Community 2026-04-19 Source →

NVIDIAのNemotron 3 Super——Mamba-Attentionハイブリッドで100万トークンコンテキストを競合比2.2倍のスループットで処理

NVIDIAが新モデル「Nemotron 3 Super」を発表しました。総パラメータ数120B（120億×10層相当のMoE構成）でアクティブパラメータは12B、最大100万トークンのコンテキスト長を持ち、MambaとAttentionを組み合わせたハイブリッドアーキテクチャにより競合モデル比で2.2倍のスループットを実現したとされています。NVIDIAは「長文ドキュメント処理・コードリポジトリ全体の解析・大規模ログ分析といったエンタープライズユースケースで特に優位性を発揮する」と説明しています。

Mamba（状態空間モデル）とTransformerのAttentionを組み合わせたハイブリッドアーキテクチャは、近年の研究で「長コンテキストにおける計算効率」の問題を解決する有力手法として注目されてきました。従来のAttentionのみのアーキテクチャでは入力長の二乗に比例して計算コストが増大しますが、Mambaを組み合わせることでこの課題を部分的に解消できます。今回のNemotron 3 Superは、これを実用規模（120B）で商業展開した初の大型リリースのひとつとなります。

X上では「Mamba-Attentionハイブリッドが実用化段階に——NVIDIAがアーキテクチャ革新でも主導権を握る」という評価が広まり、「100万コンテキストを2.2倍速で処理できるなら長文書類処理のゲームチェンジャー」という期待の声が多数見られました。Redditのr/MachineLearningでは「Mamba2アーキテクチャの商業化が本格化——学術から産業への移行」という技術議論が活発になり、「120Bモデルでアクティブ12BというのはMoEに近い運用コスト」という効率性の分析が高く評価されています。一方、Hacker Newsでは「NVIDIAのモデルリリース戦略——ハードウェア販売促進のためのソフトウェア整備という観点でも読める」という冷静な分析があり、「1Mコンテキストで2.2倍スループットという数字の独立検証はどこ？」という懐疑的なコメントも目立ちました。

GPUメーカーとしてのNVIDIAが自社モデルを積極的にリリースする戦略は、H100・H200・Blackwellといった自社ハードウェアの需要創出と一体化した動きとして理解できます。Nemotron 3 Superが実際のエンタープライズ現場でどこまで採用されるかは今後の検証次第ですが、長コンテキスト処理の高速化という方向性はRAG（検索拡張生成）システムや法務・金融領域での実用可能性を広げる可能性があります。

NVIDIAのNemotron 3 Super——Mamba-Attentionハイブリッドで100万トークンコンテキストを競合比2.2倍のスループットで処理

関連リンク