Caltechのスピンオフ・PrismMLが、1ビットアーキテクチャを採用した小型言語モデル「Bonsai」シリーズ(8B・4B・1.7Bの3バリアント)を公開しました。旗艦モデルのBonsai 8Bはメモリ使用量わずか1.15GBで動作し、従来のフルプレシジョンモデルと比較して14倍小型・8倍高速・5倍省電力を実現しています。iPhone 17 Pro Maxやロボティクス向けエッジデバイスでのオフライン動作を主要ユースケースとして想定しており、精度面でもフルプレシジョンモデルと同等水準を維持すると主張しています。
従来のLLMは16ビットや32ビットの浮動小数点数でモデルの重みを表現しますが、Bonsaiシリーズは各重みを実質的に1ビット(-1・0・+1の3値)に圧縮する「1ビット量子化」技術を採用しています。この手法は2024年にMicrosoft Researchの「BitNet b1.58」論文で理論的可能性が示されていましたが、PrismMLはこれを実用規模のモデルとして具現化したことになります。メモリフットプリントが劇的に縮小されることで、スマートフォンはもちろん、メモリ制約の厳しいロボティクスや組み込みデバイスでの本格的なLLM活用が現実的な選択肢になります。
PrismMLによると、Bonsai 8BはMMLU(多分野知識テスト)でLlama 3.1 8Bと同等スコアを記録しており、コーディング・数学推論の各ベンチマークでも競合する8Bクラスモデルと遜色ない結果を示しているとされています。ただし、詳細なベンチマーク結果の完全な公開はまだ行われておらず、第三者による独立した検証が待たれる状況です。
X(旧Twitter)では「クラウドに依存しないAIエッジ時代の幕開け」という期待感のある投稿が多数拡散されました。一方でr/LocalLLaMAでは「スマートフォンで動く本格LLMが現実になる」という興奮の声に加え、「ベンチマーク詳細を見るまでは慎重に」という冷静な意見も混在しており、Hacker Newsでは「1ビット量子化はエネルギー・メモリの制約がきつい組み込み環境を根本から変えうる」という技術的観点からの議論が活発に行われました。
モデルはオープンソースとして公開されており、Hugging Faceからダウンロード可能です。クラウドAPIに依存しないオンデバイスAIの普及という観点では、エッジAIの新しい基準を示す可能性があります。プライバシー面でも通信が発生しないオフライン動作は大きなアドバンテージであり、医療・法律分野のセンシティブデータを扱うアプリケーションでの採用が期待されます。