Microsoftが2026年4月2日、自社開発のAIモデルファミリー「MAI」シリーズとして音声認識・音声生成・画像生成の3モデルをMicrosoft Foundryで正式提供開始しました。音声認識モデル「MAI-Transcribe-1」は上位25言語のFLEURSベンチマーク(音声認識の精度評価指標)においてWER(単語誤り率)3.8%を達成し、既存のAzure Fast Transcriptionと比較して2.5倍のバッチ処理速度を実現、GPUコストも約50%削減されています。
「MAI-Voice-1」はシングルGPUで60秒分の音声を1秒未満で生成できる高速音声生成モデルで、わずか数秒の音声サンプルからカスタムボイスを作成する機能もFoundry経由で提供されます。画像生成の「MAI-Image-2」はArena.aiの画像モデルリーダーボードで公開直後に3位にランクインし、1024×1024ピクセルの高解像度画像生成に対応しています。価格はMAI-Transcribe-1が1時間あたり0.36ドル、MAI-Voice-1が100万文字あたり22ドルからとなっています。TechCrunchは「MicrosoftがOpenAIとGoogleへの直接的な挑戦状を叩きつけた」と報じており、3兆ドル企業が独自モデル開発に本格参入した意義を強調しています。
Redditのr/MachineLearningでは「MicrosoftがOpenAIに対抗できるほどのモデル品質を持つことへの驚き」が多く寄せられ、「Google・OpenAI・Meta・Microsoftの4強時代が始まった」という声も上がっています。Hacker Newsでは、OpenAIとの資本関係を持つMicrosoftが独自モデルを出すことで「OpenAIの株主構造や提携関係に影響が出るのではないか」という懸念コメントが上位を占めました。
MicrosoftにとってOpenAIへの依存度を下げることは長年の課題であり、今回の発表はその意思を明確にしたものといえます。Azure Foundry上での独自モデル展開が進めば、エンタープライズ顧客がコストや性能を比較しながらモデルを選択できる競争環境が生まれ、AI APIの価格低下にも繋がる可能性があります。