← 2026-05-04
Research Community 2026-05-04 Source →

Google DeepMindがKVキャッシュ圧縮アルゴリズム「TurboQuant」をICLR 2026で発表——最大6倍圧縮・H100で8倍高速化

Google DeepMindとGoogle Researchの共同チームは2026年3月25日、LLM(大規模言語モデル)推論の主要ボトルネックである「KVキャッシュ(Key-Valueキャッシュ)」のメモリ消費量を劇的に削減するアルゴリズム「TurboQuant」を発表しました。ICLR 2026(リオデジャネイロ)で採択されたこの手法はKVキャッシュを1値あたり3ビットまで圧縮し、NVIDIA H100 GPUにおけるアテンション計算で最大8倍の高速化を実現しながら、精度の実質的な劣化はないとしています。

PolarQuantとQJLを組み合わせた独創的な圧縮手法

Google Researchのブログによると、TurboQuantは2つの要素技術で構成されています。一つ目の「PolarQuant」は高次元ベクトルを回転変換してから量子化(数値精度を落とす処理)することで、精度劣化を最小化しながらビット数を削減します。二つ目の「QJL(Johnson-Lindenstrauss圧縮)」は数学的手法であるジョンソン-リンデンシュトラウス変換を活用し、高次元データを低次元に圧縮する際に重要なデータ間の距離関係を保ちます。最終的な量子化では各数値を+1または-1の符号ビット1つに変換しつつ、クエリ側との精度バランスを保つ推定量を使ってアテンションスコアを精度よく計算できる設計です。LongBench・Needle In A Haystack・ZeroSCROLLS・RULER・L-Evalなどの長文コンテキストベンチマークで評価を行い、KVキャッシュを最大6倍圧縮、メモリオーバーヘッドを大幅削減した上でH100では8倍の速度向上を達成したと報告しています。

Hacker Newsではこの論文が「ICLR 2026で最も注目を集めた発表の一つ」として取り上げられており、「実際のデプロイコスト削減への応用可能性」について活発な議論が展開されました。TechCrunchはドラマ「シリコンバレー」のPied Piperになぞらえて報じ、発表翌朝にはGitHubに独立した実装が複数公開されたほど開発者コミュニティの反応は早かったといいます。

LLMをクラウドや自社サーバーで動かす際のコストを押し上げているのが、長文コンテキスト処理時に膨大なメモリを占有するKVキャッシュの問題です。TurboQuantが広く実装されれば、同じGPUメモリで処理できるリクエスト数が増加し、推論コストの大幅削減につながります。llama.cppなどオープンソースの推論エンジンへの統合も議論されており、モデル開発のみならず推論インフラ全体のコスト構造を変える技術として今後の普及が注目されます。

関連リンク