Research Community 2026-04-10 Source →

Google DeepMindがTurboQuantをICLR 2026で発表——KVキャッシュ圧縮で長文脈推論の速度・コストを大幅改善

Google DeepMindはICLR（International Conference on Learning Representations）2026において、大規模言語モデル（LLM）の長文脈推論を高速化・低コスト化するアルゴリズム「TurboQuant」を発表しました。「PolarQuant」回転量子化と「Quantized Johnson-Lindenstrauss（QJL）」圧縮を2段階で組み合わせることで、KVキャッシュ（Key-Valueキャッシュ：推論時の中間計算結果を再利用するためのメモリ領域）のメモリオーバーヘッドを大幅に削減できるとしています。

長文脈推論のボトルネックの一つがKVキャッシュのメモリ消費です。100万トークンを超える超長文脈を扱うモデルでは、KVキャッシュがGPUメモリの大部分を占め、推論コストと速度の悪化につながります。TurboQuantはKVキャッシュの各ベクトルをPolarQuant回転で数学的に整形した後、QJL圧縮で高精度に量子化する2ステップアプローチを採用します。従来の量子化手法と比べて精度劣化が少なく、実際の推論品質を維持しながらメモリ効率を高められるとしています。

X上では「Gemini 3.1の長文脈処理コストを支える基盤技術。これがあるから他社の3分の1の価格を実現できる」という分析が注目されています。Gemini 3.1がAPIコストでGPT-5.4 Proの約3分の1を実現している背景には、TurboQuantのような推論効率化技術の積み上げがある可能性があります。Hacker Newsでは実装詳細への関心が高く、「Rotary Position Embedding（RoPE）との組み合わせ可能性は？」「既存のFlashAttentionと統合できるか？」といった技術的な質問が上位を占めています。

学術研究の成果をプロダクション推論コストの削減につなげるGoogleの縦断的な研究開発パイプラインが、ここでも機能しています。TurboQuantのような推論効率化技術は、長期的には「より長い文脈をより安く扱える」というユーザー体験の改善として現れます。100万〜1000万トークン規模の長文脈が当たり前になりつつある現在、KVキャッシュの効率化競争は続きそうです。

Google DeepMindがTurboQuantをICLR 2026で発表——KVキャッシュ圧縮で長文脈推論の速度・コストを大幅改善

関連リンク