Research Community 2026-04-12 Source →

Google TurboQuant、LLMのKVキャッシュを最大8倍高速化 — 3ビット量子化で精度損失なし・ICLR 2026

GoogleがICLR 2026でTurboQuantを発表しました。大規模言語モデル（LLM）の推論時に生成されるKVキャッシュ（Key-Valueキャッシュ）をわずか3ビットまで量子化しながら、精度損失をゼロに抑えられるという画期的なアルゴリズムです。H100 GPU上での実測で4ビット版が32ビット非量子化比で最大8倍の処理速度向上を達成しており、長文コンテキスト処理やエージェントAIのメモリ効率を根本から改善する基盤技術として注目を集めています。

論文の正式タイトルは「TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate」。Google ResearchのAmir Zandieh氏、NYUのMajid Daliri氏、Google DeepMindのMajid Hadian氏、Google ResearchのVahab Mirrokni氏によるチームが開発しました。手法は2段階構成で、まず「PolarQuant回転」と呼ばれる回転行列を適用してキャッシュの分布を均一化し、続いてJohnson-Lindenstrauss（JL）変換ベースの量子化で高い圧縮率を実現します。LongBench・Needle In A Haystack・RULER等の長文ベンチマークでGemma・Mistralを用いた評価を実施し、精度の劣化がないことを確認済みです。なお、トレーニングやファインチューニングを必要としないオンライン量子化であることも大きな特徴です。

ML研究者コミュニティでは「KVキャッシュ問題の実用的解決策として論文が面白い」という声がX（旧Twitter）で多数共有されました。Redditのr/MachineLearningでは「長文コンテキストのボトルネック解消に直結する研究」として高く評価され、早速PyTorchやllama.cppでの独自実装を試みるユーザーが出始めています。Hacker Newsでは「200万トークンコンテキストが現実的になるための裏方技術」として、Gemini 3.1 Ultraとの文脈で論じるスレが人気を集めました。

Googleによる公式実装コードはQ2 2026のリリースが予定されていますが、独立した開発者たちがすでにGitHubにPyTorch・MLX・llama.cpp向けの実装を公開しており、コミュニティでの検証が始まっています。KVキャッシュはトークン数に比例して増大するため、長文処理・マルチターン会話・エージェントAIのメモリ占有量削減に直接効いてくる技術です。インフラコストの削減という観点からも、商用AIサービスにとって即座に価値ある研究といえます。

Google TurboQuant、LLMのKVキャッシュを最大8倍高速化 — 3ビット量子化で精度損失なし・ICLR 2026

関連リンク