Research Community 2026-05-05 Source →

Sakana AIが約80ms遅延で音声AIにLLM知識をリアルタイム注入する「KAME」を発表、ICASSP 2026に採択

東京を拠点とするSakana AIが、音声AIの長年の課題——「知識の豊富さ」と「応答の速さ」のトレードオフ——を解消する新アーキテクチャ「KAME（Knowledge-Access Model Extension）」を発表しました。この研究は音声信号処理の国際権威会議ICASSP 2026に採択されています。

従来の音声AIには大きく2つの方式がありました。カスケード方式（ASR＋LLM＋TTS）はLLMの知識をフル活用できるものの、2.1秒程度の遅延が生じ自然な会話に不向きでした。一方、エンドツーエンドの音声合成モデルは約80msという低遅延を実現できますが、知識量に限界がありました。KAMEはこのジレンマをタンデムアーキテクチャで解決しています。Moshiをベースとした直接音声合成（S2S）モデルが約80msサイクルでリアルタイム処理を担当しつつ、バックエンドのLLMが非同期で動作して知識を注入するという設計です。「考えてから話す」のではなく「話しながら考える」仕組みへの転換といえます。

MT-Benchスコアでは6.43を記録し、会話品質を維持しながら遅延をほぼゼロに近づけることに成功しています。X上では「ついに音声AIがリアルタイム会話で知識不足を克服した。日本発の研究が世界標準を変えるかも」との声が拡散し、Redditの機械学習コミュニティでは「MoshiのアーキテクチャにLLMを並列接続するアイデアがエレガントで実装可能性も高い」と研究者から好意的に受け止められています。一方Hacker Newsでは「音声アシスタント業界——SiriやGoogleアシスタント——への商業的インパクトが注目される」と実用面への期待も高まっています。

スマートスピーカーや医療用音声入力、コールセンターAIなど、低遅延が必須とされる応用領域でKAMEの実用化が進めば、音声AIの次世代標準になる可能性を秘めています。SakanaAIが日本発のAI研究として世界的注目を集めた一例として、今後の続報が待たれます。

Sakana AIが約80ms遅延で音声AIにLLM知識をリアルタイム注入する「KAME」を発表、ICASSP 2026に採択

関連リンク