Open Source Community 2026-04-07 Source →

Mistral AIが音声生成オープンソースモデル「Voxtral TTS」リリース、5秒未満の音声サンプルで9言語のカスタム音声を再現

Mistral AIは2026年3月26日、テキスト音声変換（TTS）オープンソースモデル「Voxtral TTS」をリリースしました。TechCrunchが報じたところによると、英語・フランス語・ドイツ語・スペイン語・オランダ語・ポルトガル語・イタリア語・ヒンディー語・アラビア語の9言語に対応し、5秒未満の音声サンプルから話者のアクセント・抑揚・発話の個性を再現するカスタム音声適応機能を搭載しています。

「5秒で音声クローン」への期待と懸念

Voxtral TTSはオープンウェイトで提供されるため、研究者・開発者は自由にモデルをローカルで動作させたり、独自データでファインチューニングしたりすることができます。従来のオープンソースTTSと比べて自然な発音と感情表現の再現度が高く、Hacker Newsでは既存のElevenLabsやOpenAI TTS-HDなどの商用サービスへの影響を分析するスレッドが立ち上がりました。

X上では「5秒の音声でクローンができる」という特徴が注目を集め、反応は賛否が入り交じるものでした。ポッドキャストや動画のナレーション生成、多言語コンテンツ制作への活用を期待する声がある一方、ディープフェイク音声や電話詐欺への悪用リスクを懸念するコメントも多数見られました。音声クローン技術の民主化は、創造的な利用と悪用の両方を同時に加速させる両刃の剣です。

Voxtral TTSはMistralにとってNVIDIAとのNemotronコアリション発表と同時期に打ち出した施策のひとつで、テキスト生成だけでなく音声モダリティへのオープンソース展開を加速させる意図がうかがえます。日本語への対応は現時点では含まれていませんが、多言語モデルの拡張という観点から今後の追加言語サポートに期待が集まります。

Mistral AIが音声生成オープンソースモデル「Voxtral TTS」リリース、5秒未満の音声サンプルで9言語のカスタム音声を再現

「5秒で音声クローン」への期待と懸念

関連リンク