Metaの前主任科学者であるYann LeCunが、2025年4月にリリースされたLlama 4のベンチマーク結果について、意図的に最適化されたデータセットを使って成績を水増ししていたことを公式に認めました。この問題を受け、MetaはLlama 4 Behemothを含む新規大規模言語モデルの公開を約1年間停止し、次世代モデル「Muse Spark」の開発へと方針を転換しています。
「ベンチマーク操作」という言葉はAI業界で以前から問題視されてきましたが、今回はMetaという大手企業が関与したことで、業界全体に大きな波紋を広げています。具体的には、Llama 4の評価に使用されたデータセットが評価タスクに特化して調整されており、実際の汎用性能よりも優れた数値を示す結果になっていたとされています。OSI(オープンソース・イニシアチブ)による「LlamaはオープンソースAIの定義を満たさない」というライセンス論争とも相まって、オープンソースコミュニティのMetaへの信頼は大きく揺らいでいます。
X(旧Twitter)では「AIベンチマーク操作問題がついに大手でも公式確認された」として業界全体に衝撃が走り、「ベンチマーク結果をどこまで信じるべきか」という根本的な疑問が再燃しました。Redditのr/MachineLearningでは「オープンソースコミュニティへの裏切り」として強い怒りを表明する投稿が多数集まりました。
Hacker Newsでは「大企業がオープンソースを標榜しながら実際には制限的なライセンスを課す問題」と「ベンチマーク文化が歪んだインセンティブを生む構造問題」という本質的な議論に発展しています。
今回の一件が重要なのは、単に一企業の不正というだけでなく、現行のAI評価体制そのものへの信頼が問われている点です。LLMの性能評価は多くの場合、少数の標準ベンチマークに依存しており、そのベンチマーク自体への最適化(いわゆる「ベンチマークハッキング」)を防ぐ仕組みは十分とは言えません。研究機関や企業がより堅牢で操作困難な評価指標の開発を急ぐ契機となりそうです。MetaがMuse Sparkへとシフトする中、次のリリースで失った信頼を回復できるかが注目されます。