Inception Labsは、拡散(Diffusion)ベースの推論LLM「Mercury 2」を公開しました。従来の自己回帰的なトークン生成を廃止し、並列生成と反復的精錬を組み合わせた独自アーキテクチャにより、速度最適化モデルの5倍以上となる毎秒1000トークン超の生成速度を実現しています。数学的推論ベンチマーク「AIME 2025」ではGPT-5 Miniと同等となる91.1%を記録しており、速度と精度の両立が大きな注目を集めています。
Mercury 2の核心は、LLMにおけるテキスト生成の仕組みを根本から変えた点にあります。従来の大規模言語モデルが1トークンずつ順番に出力する「自己回帰型」であるのに対し、Mercury 2は画像生成AIで実績を積んだ拡散モデルのアプローチを言語に応用。複数のトークンを同時に生成し、ノイズから徐々に正確な出力へと収束させる「反復的精錬」プロセスによって、推論速度の飛躍的な向上を実現しました。注目すべきはその投資家陣で、Deep LearningのパイオニアであるAndrej KarpathyやAndrew Ngが個人投資家として参加していることも、本モデルへの業界内の期待を示しています。
Hacker Newsでは「拡散モデルが言語生成に本格利用可能なレベルに達したという点で歴史的な節目」という評価が上位を占めており、自己回帰型との根本的なアーキテクチャの違いへの関心が高まっています。Redditでは「毎秒1000トークン超はリアルタイム音声AIやエージェントループへの応用が広がる」という声が相次いでおり、応答速度がボトルネックとなっていた用途での活用可能性が期待されています。
毎秒1000トークンという速度は、人間が読む速度(毎秒約4〜5語)を大幅に超え、リアルタイム会話AIや複数エージェントが協調動作するシステムでの活用に直結します。拡散アーキテクチャという新たなパラダイムが推論LLMの主流になるかどうか、今後の商用展開とベンチマーク結果が試金石となるでしょう。