フランスのAI企業Mistralは3月26日、オープンソースのテキスト音声合成(TTS)モデル「Voxtral TTS」をリリースしました。40億パラメータという軽量設計ながら、人間による評価ではElevenLabs Flash v2.5を上回る自然さを実現し、ElevenLabs v3とも同等の品質を達成しています。モデルウェイトはHugging FaceでCC BY NC 4.0ライセンスのもと完全公開されています。
Voxtral TTSは英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語に対応しています。軽量設計により、スマートウォッチ、スマートフォン、ラップトップなどのエッジデバイスでも動作可能です。リアルタイム性能も優れており、最初の音声出力までの遅延(Time-to-First-Audio)は90ミリ秒、10秒の入力サンプルと500文字に対するモデルレイテンシは70ミリ秒、リアルタイムファクターは約9.7倍を達成しています。
注目すべき機能として、わずか3秒の参照音声からボイスクローニング(音声模倣)が可能です。話者の自然な間、リズム、イントネーション、感情表現まで捉え、高い再現性を実現しています。API経由での利用も可能で、価格は1,000文字あたり0.016ドルです。
X上では「ElevenLabsキラー」との評価が相次ぎ、エッジデバイスでの音声AI民主化への期待が高まっています。Redditのr/LocalLLaMAでは早速ローカル実行の報告が上がり、「4Bパラメータで高品質」と好評です。Hacker Newsでは「API課金モデルへの対抗として、オープンウェイト公開により企業の自社運用が可能になった」と戦略的意義が議論されています。音声AI分野でもオープンソースの選択肢が充実し、開発者にとっての選択の幅が広がりました。