GoogleがICLR 2026(国際機械学習表現学習会議)でTurboQuantを発表しました。大規模言語モデルの推論時に生成されるKVキャッシュ(Key-Valueキャッシュ:過去のトークン情報を保持するメモリ領域)を3〜4ビットに極限まで圧縮することで、再学習なしに4〜6倍のメモリ削減と最大8倍の推論速度向上を達成したとしています。
Google Researchのブログによると、TurboQuantは既存のLLMに対してポストトレーニング量子化として適用できるため、膨大な再学習コストを必要とせず即座に展開可能な点が特徴です。KVキャッシュはコンテキスト長が伸びるにつれてメモリ消費が急増する問題があり、200万トークン超のコンテキストを扱うモデルではこのボトルネックが顕著でした。TurboQuantはそこに直接アプローチするもので、エッジデバイスや低スペックのGPU環境での長文処理が現実的な選択肢になる可能性があります。精度劣化についてはGSM8Kなど主要ベンチマークで1〜2%以内に収まると報告されており、実用水準を維持しているとされています。
「再学習不要でメモリ4〜6倍削減は実用的。エッジデバイスでのLLM展開が一気に現実的になる」というX上の評価が多くのリポストを集めました。r/MachineLearningではKVキャッシュ圧縮の経済的インパクトを詳細に分析するスレッドが人気を博し、複数の実装がすでにGitHubに登場しています。Hacker Newsでは「推論コストの構造変化をもたらす可能性がある」と評価する声とともに、Cloudflareなどエッジインフラ企業への具体的な影響を考察する議論が展開されました。
推論コストの削減は、AI APIを提供するすべての企業に波及します。TurboQuantが広く採用されれば、トークン単価のさらなる低下と、これまでクラウドに依存していた推論処理のオンデバイス化が加速する可能性があります。