← 2026-03-28
Open Source Community 2026-03-28 Source →

Mistralがオープンソース音声合成モデル「Voxtral TTS」を公開、ElevenLabsを超える自然さで9言語対応

フランスのAI企業Mistral AIが、同社初のテキスト音声合成(TTS)モデル「Voxtral TTS」をオープンウェイトでリリースしました。40億パラメータの軽量設計ながら、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語に対応し、わずか3秒の参照音声からカスタムボイスを生成できます。

人間による評価では、Voxtral TTSはElevenLabs Flash v2.5を自然さで上回り、ElevenLabs v3とも同等の品質を維持しつつ、初回音声出力までの時間(Time-to-First-Audio)では同等のパフォーマンスを実現しています。微妙なアクセント、抑揚、イントネーション、さらには言いよどみまでも再現可能で、より人間らしい音声出力を実現しました。

Mistralはモデルの全ウェイトをHugging Faceで公開しており、Creative Commonsライセンスの下でダウンロード可能です。企業は自社サーバーやスマートフォン上でローカル実行でき、音声データを第三者に送信する必要がありません。Hacker Newsでは「ElevenLabsやOpenAIの音声モデルに対するオープンソース代替として期待」との声が上がり、r/LocalLLaMAでも「ローカル実行可能なTTSモデル」として注目を集めています。

関連リンク