MetaがオープンソースLLMシリーズの最新作「Llama 4」を正式にリリースしました。Scoutモデルは17Bのアクティブパラメーターと109Bの総パラメーターを持ち、Llama初となるMixture-of-Experts(MoE、混合エキスパート)アーキテクチャを採用。ネイティブマルチモーダル学習と1000万トークンという巨大なコンテキスト窓を特徴としています。しかし、リリース直後からコミュニティではベンチマーク操作疑惑や実際の使用における低性能が報告され、Metaは「バグが原因」と弁明する事態になっています。
MetaによるとLlama 4はネイティブにテキストと画像を処理するマルチモーダルアーキテクチャを採用しており、コンテキスト長は従来モデルの数十倍に相当する1000万トークンに達します。MoEアーキテクチャはGoogleのGeminiなどでも採用されており、推論時には全パラメーターを使わずアクティブな専門家ネットワークだけを使うことで効率化を図ります。ただし、Hacker Newsでは「スパースMoEによるメモリ要件の大幅増加がローカル実行コミュニティを排除している」との批判が相次ぎ、オープンソースとしての実用性に疑問が呈されています。
X(旧Twitter)ではAI研究者のZvi氏をはじめ「Llama Does Not Look Good 4 Anything」などの厳しい批評が多く拡散し、ベンチマーク操作疑惑も広まりました。これに対しMetaは「バグが測定結果に影響した」と反論しています。Reddit(r/LocalLLaMA)でも失望の声が支配的で、256kトークン以上での品質低下やDeepSeek V3との比較でのコーディング性能劣化、技術文書の不足への不満が続出しています。
Llama 3.xシリーズが高い評価を受けていただけに、今回のLlama 4に対するコミュニティの反応は想定外に厳しいものとなりました。Metaはバグ修正後のリベンチマーク結果を近く公開するとしており、その数字次第で評価が大きく変わる可能性があります。オープンソースLLMの覇権争いで中国勢やMistralなどとの競合が激化する中、Metaの次の一手が注目されます。