Google DeepMindが2月にリリースしたGemini 3.1 Proが、抽象的推論能力を測定するベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、フロンティアモデルの中でトップの座を獲得しました。
ARC-AGI-2は、ARCプライズが運営するベンチマークで、モデルが訓練中に見たことのない全く新しい論理パターンを認識できるかを評価します。暗記が通用しないよう設計されており、高スコアを出すには真の推論能力が求められます。注目すべきは、一般人の平均スコアが60%であるのに対し、Gemini 3.1 Proがそれを17ポイント以上も上回っている点です。前バージョンの31.1%から倍増以上の飛躍を遂げ、Claude Opus 4.6の68.8%、GPT-5.2の52.9%も大きく引き離しました。
Gemini 3.1 Proは100万トークンのコンテキストウィンドウを搭載し、テキスト、画像、音声、動画、コードにわたるマルチモーダル推論を実現しています。X上では「ARC-AGI-2での高スコアが一般推論能力の向上を示す」と評価する声が上がっており、Hacker Newsでは「GPT-5.4、Claude 4.6と並ぶフロンティアモデル三強」との位置づけが定着しつつあります。ただし、同社のGemini 3 Deep Thinkは拡張推論モードで84.6%を記録しており、推論時間を延長すればさらなる性能向上が可能なことも示唆されています。
今回の結果は、AIモデルの評価において単なる知識量だけでなく、未知の問題への適応力がますます重要になっていることを示しています。