フランスのAIスタートアップMistral AIは2026年3月26日、初のオープンウェイトテキスト音声合成(TTS)モデル「Voxtral TTS」をリリースしました。40億パラメータの軽量設計でありながら、英語・フランス語・ドイツ語・スペイン語・オランダ語・ポルトガル語・イタリア語・ヒンディー語・アラビア語の9言語に対応し、わずか3秒の参照音声から話者の声を再現するゼロショット音声クローン機能を備えています。ネイティブスピーカーによる評価では多言語音声クローンにおいてElevenLabs Flash v2.5に対して68.4%の勝率を記録しており、APIは1,000文字あたり0.016ドルという低コストで提供されます。
Voxtral TTSが注目される理由は性能だけではありません。Mistralはモデルの重みをHugging FaceでCC BY NC 4.0ライセンスの下に公開しており、企業は自社サーバーにVoxtral TTSを展開して音声データを外部に送信せずに運用できます。ElevenLabsやOpenAIのTTSサービスはAPIを「借りる」モデルですが、Voxtral TTSは「所有する」モデルを実現します。技術的な特長としては、70ミリ秒という低レイテンシーと実速度の約9.7倍という高いリアルタイム係数(RTF)があり、音声エージェントや会話AIへのリアルタイム組み込みに適しています。また、同社がすでに音声認識モデル「Voxtral Transcribe」と大規模言語モデルを持つことで、音声入力→言語理解→音声出力のフルパイプラインを自社完結できる点も強みです。
Xでは「クラウドTTSビジネスモデルの構造的な論理が一気に崩れた」という投稿が広く共有され、ElevenLabsやOpenAIのTTS事業への影響を懸念する声が多く見られました。開発者コミュニティからは音声クローン・多言語対応・エッジデバイス対応という三拍子がそろった点が高く評価されましたが、ベンチマークが自社評価であり第三者による検証が必要という指摘もありました。Hacker Newsでは欧州のデジタル主権を強化する戦略的リリースとして注目が集まり、「完全なオーディオパイプラインを構築したのはMistralだけ」という声も多く上がりました。
クラウドに依存しないオンプレミス型の音声AIという選択肢が、ヘルスケアや金融など守秘義務の厳しい産業で特に価値を持つことになりそうです。商用利用には制限が残るCC BY NCライセンスという点は引き続き注意が必要ですが、Mistralがオープンな音声AIのデファクトスタンダードを目指していることは明らかです。ElevenLabsを始めとする既存プレイヤーの対応が注目されます。
| - [Speaking of Voxtral | Mistral AI](https://mistral.ai/news/voxtral-tts) |
|---|---|
| - [Mistral AI just released a text-to-speech model it says beats ElevenLabs | VentureBeat](https://venturebeat.com/orchestration/mistral-ai-just-released-a-text-to-speech-model-it-says-beats-elevenlabs-and) |
| - [Mistral releases a new open source model for speech generation | TechCrunch](https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/) |