Googleは4月にGemma 4ファミリーをApache 2.0ライセンスでリリースし、5月に入って広く認知されるようになっています。2B・4B・12B・31Bの4サイズ展開で、注目は「26B A4B」モデルです。これはMoE(Mixture of Experts:混合エキスパート)アーキテクチャを採用しており、実際に推論時に動く(アクティブな)パラメータ数はわずか4Bながら、20倍以上大きいモデルに匹敵するベンチマーク性能を発揮します。また256,000トークンのコンテキスト窓と140言語以上への対応、全バリアントでの視覚・音声入力サポートが特徴です。
Googleの公式ブログによると、Gemma 4のMoEアーキテクチャは推論コストを大幅に削減する設計となっています。アクティブパラメータが4Bということは、16GB程度のVRAMを持つコンシューマーGPUでも動作可能なレベルであり、ローカル環境での高性能AI運用の選択肢が大きく広がります。Apache 2.0ライセンスは商用利用・改変・再配布を広く許可しており、サービスへの組み込みやファインチューニングも制約が少ないです。視覚・音声のネイティブ対応が全バリアントに含まれているのも特徴で、テキスト以外のモダリティを扱うアプリケーション開発のハードルを下げています。
X(旧Twitter)ではMoEアーキテクチャによる推論コスト削減とフロンティア性能の両立を研究者が高く評価し、Apache 2.0商用利用を歓迎する声が上がっています。r/LocalLLaMAでは「4Bアクティブパラメータで動くのに31B相当の出力」という実験報告が多数共有されており、ユーザーによる実使用ベンチマークが活発に投稿されています。Hacker Newsではいずれも「商用利用の壁を取り除いた」という表現で、Apache 2.0ライセンスと音声・視覚ネイティブ対応の組み合わせを評価するコメントが上位を占めました。
Gemma 4はローカル実行・低コスト・高機能の三拍子を揃えたモデルとして、特にスタートアップや個人開発者にとって魅力的な選択肢となっています。MoEの普及がオープンソースLLMのデファクトアーキテクチャを塗り替えていく流れを加速させる一手とも言えます。