CaltechとMITの研究者が創業したスタートアップPrismMLが、ステルスモードから一転して1ビット量子化(モデルの重みを1ビット精度で表現する手法)LLMファミリー「Bonsai」を公開しました。8Bパラメータのモデルをわずか1.15GBに圧縮しながら、RTX 4090でのエネルギー消費を4.1倍削減することを実証しており、1,625万ドルのシード資金獲得とともにエッジAI推論市場に衝撃を与えています。
従来の量子化技術では通常4ビットや8ビット精度への削減が行われてきましたが、1ビット量子化は理論上の限界に迫るアプローチです。従来、8Bモデルを動作させるには16GBのVRAMが必要とされていましたが、BonsaiはこれをわずかGB1.15のモデルサイズに落とし込みました。この圧縮により、高性能なGPUなしにスマートフォンや組み込みデバイスでも大規模言語モデルの推論が現実的になりつつあります。PrismMLによると、品質劣化を最小限に抑えながらこの圧縮を実現したとしていますが、ベンチマーク性能と実用性能のギャップについては引き続き独立検証が進んでいます。
「16GBのVRAMが必要だったモデルが1GBで動く」というインパクトのある事実がX上で拡散し、エッジAI推論の普及加速を期待する開発者コミュニティから大きな反響を呼んでいます。r/LocalLLaMAでは実際のテスト結果が投稿され、省電力化の環境的意義も評価されています。Hacker Newsでは「ついに1ビットLLMが商用レベルに達した」として歴史的マイルストーンと評価するコメントが上位を占め、データセンター電力コスト削減への試算も共有されました。
Bonsaiが切り拓くのは「LLMをどこでも動かす」という世界観です。クラウド依存からエッジへのシフトが加速すれば、プライバシーとレイテンシの問題を同時に解決できる可能性があります。AIの推論コストと消費電力が議論される2026年において、1ビットLLMの商用化は業界全体に大きな問いを投げかけています。