Microsoftが2026年4月2日、自社ブランドのAI基盤モデル「MAI」シリーズとして3つの専門モデルをMicrosoft Foundry上でリリースしました。音声認識の「MAI-Transcribe-1」、音声生成の「MAI-Voice-1」、テキストから画像を生成する「MAI-Image-2」の3種で、OpenAIとの長年の依存関係から距離を置く戦略的な一手として業界の注目を集めています。
MAI-Transcribe-1は、25言語に対応した企業向け音声認識モデルです。Microsoftによると、Scribe v2・Whisper large-V3・GPT-Transcribe・Gemini 3.1 Flash-LiteをFLEURSベンチマークで上回る単語誤り率(WER)を達成しており、現在のAzure Fastオファリングと比べて約2.5倍の転写速度を誇ります。GPU利用コストも競合モデル比で約50%削減できるとしており、大量の音声データを処理する企業での採用が見込まれます。
MAI-Voice-1は、1台のGPUで60秒分の高品質音声を1秒以内に生成できる音声生成モデルです。感情表現や話者の個性を長文コンテンツ全体にわたって維持する能力を持ち、数秒分の音声サンプルからカスタムボイスを作成する機能もMicrosoft Foundry経由で提供されます。一方、MAI-Image-2はテキストから画像を生成するモデルで、Arena.aiの画像モデルランキングで3位にデビューしました。生成速度は以前比で2倍以上高速化されており、料金体系はテキスト入力が100万トークンあたり5ドル、画像出力が同33ドルに設定されています。
X(旧Twitter)上では「MicrosoftがOpenAIとの距離を置き始めている。MAI戦略は独立への布石」と業界関係者が指摘する声が広がりました。VentureBeatの報道でも、Microsoftがこれまでほぼ全面的に依存してきたOpenAIのモデルから脱却し、Azure・Foundry・Copilotエコシステムを自社技術で強化しようとしている意図が読み取れると分析されています。Hacker Newsでは「コスト競争力が鍵。GoogleやOpenAIより安価に提供できれば企業採用は一気に進む」という見方が上位を占めました。
今後Microsoftが音声・画像・テキスト生成の全領域で自社モデルを拡充すれば、OpenAIとの協業関係のあり方そのものが変わる可能性があります。企業顧客にとっては、選択肢の増加と価格交渉力の向上につながる動きとして、引き続き注目が必要です。