← 2026-04-06
Research Community 2026-04-06 Source →

GoogleがTurboQuantを発表、LLMのKVキャッシュを3ビットに圧縮してメモリを6分の1に削減・精度低下なし

Googleリサーチチームが、大規模言語モデル(LLM)の推論時に発生するKVキャッシュのメモリ消費を大幅に削減する新アルゴリズム「TurboQuant」を発表しました。KVキャッシュを3ビットまで量子化(圧縮)しながらモデルの精度をほぼ完全に保持でき、従来手法と比較してメモリ使用量を少なくとも6分の1に削減。Nvidia H100 GPU上では最大8倍のスループット向上も確認されています。論文はICLR 2026で発表予定です。

KVキャッシュとは、なぜ重要か

KV(Key-Value)キャッシュとは、LLMが長いテキストを処理する際に各トークンの計算済み中間値を保持しておくメモリ領域です。コンテキストウィンドウが長くなればなるほどKVキャッシュの容量は膨らみ、GPUメモリの大部分を占有してしまいます。200万トークンクラスの長文脈モデルではKVキャッシュだけで数十GBのVRAMを消費するケースもあり、実用展開コストの主要なボトルネックとなっています。

TurboQuantは2段階の手法でこの問題に対処します。まず「PolarQuant」がデータベクトルをランダム回転させたうえで極座標に変換し、回転後の角度分布が予測可能・集中的であるという性質を利用して、従来必要だったブロック単位の正規化定数を省略しながら量子化を実施します。続いて「QJL(Quantized Johnson-Lindenstrauss)」がPolarQuantの残差誤差にJohnson-Lindenstrauss変換を適用し、各値を1ビットの符号に圧縮します。訓練やファインチューニングは一切不要で、既存モデルにそのまま適用できます。

「ICLR 2026の注目論文」としてMLコミュニティが沸く

Hacker Newsでは「KVキャッシュ問題はLLM実用化の最大のボトルネックの一つ。この手法が広まれば長文脈モデルのコストが劇的に下がる」という技術的評価コメントが多数集まりました。r/MachineLearningでは論文の数式を詳細に検証するスレッドが立ち上がり、再現実験の報告も早くも投稿されています。X上ではMLリサーチャーたちが「ICLR 2026の注目論文の一つ」として引用・解説スレッドを多数投稿し、Tom's Hardwareも「実質的にPied Piperの圧縮アルゴリズムが現実になった」と報じています。

TurboQuantが広く採用されれば、長文脈推論にかかるGPUメモリコストの大幅な削減が見込まれ、現在クラウド上でしか現実的でないGemini 3.1 Ultra(200万トークン)クラスのモデルをより低コスト・小規模インフラでも動かせるようになる可能性があります。

関連リンク