MetaがLlama 4 Scout(109Bパラメータ)とMaverick(400B・Mixture-of-Expertsアーキテクチャ)のオープンソースリリースを発表した直後、ベンチマーク改ざんを示唆する告発がRedditに投稿され、コミュニティで拡散しました。Metaは否定声明を発表しましたが、実測報告との乖離が続いており、オープンソースAIの信頼性を巡る議論が再燃しています。
VentureBeatによると、MetaのGenAI研究者を名乗る匿名の投稿者が「内部でサードパーティベンチマーク結果が振るわなかった」と告発しました。これに続いてRedditのr/LocalLLaMaでは「Maverick(402B)がはるかに小さいQwen-QwQ-32Bと同等のコーディング性能しかない」との実測報告が相次ぎ、公式ベンチマークと実測値のギャップが具体的な数値とともに示されました。400Bを超えるパラメータ数を持つモデルが32Bのモデルに性能で並ぶという結果は、モデルの効率性という観点でも深刻な疑問を投げかけています。
X上では「技術論文なしのリリースへの不信感と、DeepSeekモデルとの実性能比較を求める声が多数」見られ、論文なしでのリリースがベンチマーク数値を唯一の客観的根拠にしてしまう構造的問題が指摘されています。Hacker Newsでは「Metaからオープンで重要なリリースはもう出てこないかもしれない」と悲観視するスレッドが上位に挙がっており、今回の件がMetaのオープンソース戦略への長期的な信頼を傷つけた可能性があります。
今回の騒動が示すのは、AIモデルの性能評価においてコミュニティによる独立した再現実験がいかに重要かという点です。論文・コード・再現手順を伴わない大規模モデルのリリースは、発表数字の信頼性を担保する手段が限られており、ベンチマーク数値の透明性を業界全体で高めることが急務となっています。