大規模言語モデル(LLM)の重み(パラメータ)を1ビットに量子化する「1-bit LLM」技術が急速に実用段階へと進んでいます。従来の32ビット浮動小数点精度から1ビット(−1または+1の2値)まで圧縮することで、モデルのメモリ使用量を劇的に削減しながら、実用的な精度と推論能力を維持することが可能になってきました。
Microsoftの研究チームが2024年に発表した「BitNet b1.58」を起点に、この技術は2026年に入って急速に洗練されています。モデルサイズが約8〜16分の1に圧縮されるため、従来はクラウドサーバーにしかデプロイできなかった数十億パラメータのモデルが、スマートフォンや組み込みデバイスでも動作する可能性が開けます。また、DRAM帯域幅への負荷が大幅に下がるため、推論時の消費電力削減にも直結します。精度の維持には十分な学習データと専用のトレーニング手法が必要ですが、特定タスクに特化した小規模モデルでは商用利用に十分な品質が実証されています。
r/LocalLLaMAでは「4-bit量子化でも驚いていたのに、1-bitが実用的になるとは」という声や、「オフラインで動くAIアシスタントへの道が開けた」という期待が高まっています。エッジデバイスへの展開が現実的になることで、インターネット接続不要のオンデバイスAIが普及すれば、プライバシー保護やレイテンシ改善の観点でも大きな変化をもたらす可能性があります。