Open Source Community 2026-03-28 Source →

Mistralがオープンソース音声合成モデル「Voxtral TTS」をリリース、40億パラメータでスマートウォッチでも動作

フランスのAI企業Mistralは3月26日、オープンソースのテキスト音声合成（TTS）モデル「Voxtral TTS」をリリースしました。40億パラメータという軽量設計ながら、人間による評価ではElevenLabs Flash v2.5を上回る自然さを実現し、ElevenLabs v3とも同等の品質を達成しています。モデルウェイトはHugging FaceでCC BY NC 4.0ライセンスのもと完全公開されています。

Voxtral TTSは英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語に対応しています。軽量設計により、スマートウォッチ、スマートフォン、ラップトップなどのエッジデバイスでも動作可能です。リアルタイム性能も優れており、最初の音声出力までの遅延（Time-to-First-Audio）は90ミリ秒、10秒の入力サンプルと500文字に対するモデルレイテンシは70ミリ秒、リアルタイムファクターは約9.7倍を達成しています。

注目すべき機能として、わずか3秒の参照音声からボイスクローニング（音声模倣）が可能です。話者の自然な間、リズム、イントネーション、感情表現まで捉え、高い再現性を実現しています。API経由での利用も可能で、価格は1,000文字あたり0.016ドルです。

X上では「ElevenLabsキラー」との評価が相次ぎ、エッジデバイスでの音声AI民主化への期待が高まっています。Redditのr/LocalLLaMAでは早速ローカル実行の報告が上がり、「4Bパラメータで高品質」と好評です。Hacker Newsでは「API課金モデルへの対抗として、オープンウェイト公開により企業の自社運用が可能になった」と戦略的意義が議論されています。音声AI分野でもオープンソースの選択肢が充実し、開発者にとっての選択の幅が広がりました。

Mistralがオープンソース音声合成モデル「Voxtral TTS」をリリース、40億パラメータでスマートウォッチでも動作

関連リンク