Model Releases Community 2026-03-03 Source →

Gemini 3.1 ProがAIME 2025で100%を達成、ARC-AGI-2は77.1%で前世代から2倍以上の推論性能向上

Google DeepMindが2026年2月19日、「Gemini 3.1 Pro」をリリースしました。数学推論ベンチマーク「AIME 2025」でコード実行を併用した際に100%という完璧なスコアを達成し、AI推論能力の新たなマイルストーンを打ち立てています。コーディングエージェント能力を測る「SWE-Bench Verified」では80.6%、抽象推論を評価する「ARC-AGI-2」では77.1%を記録しました。

ARC-AGI-2のスコアは前世代のGemini 3 Proから2倍以上の向上となっており、全く新しい論理パターンを解く能力が大幅に改善されています。科学分野の専門知識を測る「GPQA Diamond」では94.3%を達成。Googleによると、評価した16のベンチマークのうち13でGemini 3.1 Proがトップとなっています。

X上ではGoogle DeepMind CEOのDemis Hassabisが発表を行い、問題解決能力の大幅向上を強調しました。Hacker Newsでは「Claude Opus 4.6を4ポイント上回りながら、コストは半分以下」という分析が注目を集めています。特に複雑な推論タスクにおけるコストパフォーマンスの良さが評価されています。

AIの推論能力がここまで向上すると、科学研究や複雑な問題解決への応用がより現実的になります。一方で、こうしたベンチマークスコアが実際のユースケースでどの程度役立つのかについては、引き続き検証が必要です。Google、OpenAI、Anthropicの三つ巴の競争は、ますます激化の様相を呈しています。

Gemini 3.1 ProがAIME 2025で100%を達成、ARC-AGI-2は77.1%で前世代から2倍以上の推論性能向上

関連リンク