Model Releases Community 2026-03-01 Source →

Inceptionが拡散型LLM「Mercury 2」を発表、毎秒1000トークン生成で従来モデルの5倍以上の速度を実現

AIスタートアップのInceptionは2月24日、世界最速の推論LLMと称する「Mercury 2」を発表しました。拡散ベースの言語モデル（dLLM）というまったく新しいアーキテクチャを採用し、毎秒約1000トークンの出力スループットを達成しています。これはClaude 4.5 Haiku（約89トークン/秒）やGPT-5 Mini（約71トークン/秒）の約10倍以上の速度です。

従来の自己回帰型モデルがトークンを1つずつ順番に生成するのに対し、Mercury 2はすべてのトークンを同時に生成し、反復的なデノイジング（ノイズ除去）処理で精緻化するという画像・動画生成で使われる拡散技術をテキスト生成に応用しています。品質面ではAIME 2025で91.1点、GPQAで73.6点、IFBenchで71.3点を記録し、Claude 4.5 HaikuやGPT 5.2 Miniと同等の性能を維持しながら圧倒的な速度を実現しました。

Hacker Newsでは「拡散モデルをLLMに応用するという技術的ブレイクスルー」に注目が集まり、推論コスト削減への期待が高まっています。X上ではリアルタイムアプリケーションでの可能性への興奮とともに、APIの価格設定に関心を示す声も見られます。

Mercury 2はエージェントループ、リアルタイム音声・検索、大規模なコーディング・編集など、推論性能が採用の決め手となるプロダクションワークフロー向けに設計されています。自己回帰型モデルが支配的だったLLM市場において、拡散アプローチという新たな選択肢が登場したことで、今後のAI推論技術の方向性に影響を与える可能性があります。

Inceptionが拡散型LLM「Mercury 2」を発表、毎秒1000トークン生成で従来モデルの5倍以上の速度を実現

関連リンク