Googleは6月3日、テキスト・画像・音声・動画の4つのモダリティを単一アーキテクチャで統合処理するオープンソースモデル「Gemma 4 12B Unified」を正式リリースしました。最大の特徴は、別途の視覚エンコーダや音声エンコーダを持たず、画像パッチと音声波形を軽量な線形層で直接埋め込み空間に射影する独自設計です。256,000トークンのコンテキストウィンドウ、Apache 2.0ライセンスでの完全オープンソース化、そして標準的なエンタープライズノートPCの16GB VRAMでの完全なローカル実行が可能という3点が際立っています。
従来のマルチモーダルモデルは、テキスト処理モデルに別途の視覚エンコーダや音声認識モデルを接続するパイプライン構造が主流でした。Gemma 4 12BはこれをひとつのモデルにシームレスE統合し、11.95Bのパラメータ・48層・1024トークンのスライディングウィンドウアテンション・26万2000語の語彙を持つ単一のネットワークとして設計されています。自動音声認識(ASR)・話者分離(ダイアリゼーション)・ネイティブなツール使用・明示的なステップバイステップ推論モードもビルトインで備えており、会議録音の要約から製品動画内の文字認識まで幅広いタスクを1モデルで完結させられます。
Apache 2.0ライセンスによる完全オープンソース化は、Googleの戦略転換として注目されています。Hacker Newsでは「商用利用・改変・再配布が自由になることで、医療・法律・金融など規制産業でのAI内製化が加速する」という評価が相次ぎました。X上でも「16GBで音声・動画まで処理できるローカルモデル」として注目を集め、プライバシー重視のユースケースへの期待の声が多数寄せられています。
r/LocalLLaMAでは早速、実機でのテストが相次いで報告されました。256Kコンテキストのパフォーマンスや量子化バージョンでの動作速度について精力的な検証が進んでいます。機密性の高い医療データや法律文書などをクラウドに送れない組織にとって、ローカルで動作するマルチモーダルAIの選択肢が生まれることは大きな意味を持ちます。
専用エンコーダを排除してパラメータを効率化し、16GBという現実的な制約のなかで4モダリティを統合した設計は、エッジデバイスや組み込み用途への応用展開を見据えたものでしょう。コミュニティによるファインチューニングや特定ドメインへの適応が進むにつれ、Gemma 4 12Bの実用的なポテンシャルが明らかになってきそうです。