NVIDIAが30Bパラメータのオープンソースマルチモーダルモデル「Nemotron 3 Nano Omni」を公開しました。映像・音声・画像・テキストをネイティブに処理できる統合型アーキテクチャを採用しており、同等性能を持つ他のオープンソースモデルと比較して最大9倍のスループットを実現しています。Hugging Face・OpenRouter・build.nvidia.comの3つのプラットフォームで即時利用が可能で、JetsonやDGX Sparkといったエッジデバイスへの展開も想定した設計になっています。
NVIDIAの公式ブログによると、Nemotron 3 Nano OmniはMoE(Mixture of Experts)アーキテクチャを採用しており、30Bの全パラメータのうち実際に推論時にアクティブになるのは約3Bのみです。この設計によりハードウェア要件を大幅に削減しながら高い推論性能を維持することに成功しており、6つのリーダーボードでトップスコアを記録したとされています。X(旧Twitter)では「ローカルで動くオールインワンマルチモーダルエージェントがついに実用領域に入った」という興奮した声とともに、JetsonやDGX Sparkでの動作確認報告が多数投稿されました。Hacker Newsでは「MoEによるコスト効率とリーダーボード上位の性能が際立つ」という評価が上位を占めており、商用利用への敷居を下げるNVIDIAの戦略的意図を読み取るコメントも目立ちました。
r/LocalLLaMAでは「30Bで音声・映像・テキストを同時処理できるのは革命的」という驚きが最上位コメントを占め、llama.cppとOllamaによるサポート追加を望む声が多く集まっています。現時点ではNVIDIA公式プラットフォーム経由での利用が中心ですが、コミュニティによる量子化対応や各種推論フレームワークへの統合が進むことで、エッジAIエージェントとしての活用事例は急速に広がる見込みです。NVIDIAがどのようなライセンス条件でモデルを提供し続けるかも、エンタープライズ採用を左右する重要な要素として注視が必要です。