Google DeepMindが2月19日にリリースした「Gemini 3.1 Pro」が、AIの汎用的推論能力を測るとされるARC-AGI-2ベンチマークで77.1%を記録しました。前世代のGemini 3 Proの2倍超のスコアを叩き出し、Claude Opus 4.6およびGPT-5.2を上回ったとされます。さらに科学的知識の深さを測るGPQA Diamondでは94.3%を達成し、16の主要ベンチマーク中13項目でトップに立ちました。
Gemini 3.1 Proの特徴として注目されているのが、100万(1M)トークンのコンテキストウィンドウと完全なネイティブマルチモーダル推論(テキスト・画像・音声・動画の統合処理)です。DeepMindによると、従来の「見る・聞く・理解する」機能を別々のモジュールで処理する手法ではなく、マルチモーダルデータを単一のアーキテクチャで一体的に扱うことで、複雑な推論タスクにおけるパフォーマンスが大幅に向上したとのことです。コーディングや科学的推論での優位性が特に際立っており、複雑なプログラム生成タスクでも高い精度を示しています。
X(旧Twitter)では「Gemini 3.1 Proは現時点で最強のProレベルモデル」とする評価が多数を占めています。一方、Reddit(r/MachineLearning)ではベンチマーク結果の信頼性についての議論が巻き起こりました。GPQA Diamondで人間の専門家を超えたという報告を歓迎する声がある一方、「リーダーボード汚染(モデルがベンチマーク問題を学習することで過度に高いスコアを出すこと)」を懸念するコメントも上位に並んでいます。Hacker Newsでは「GoogleがARC-AGI-2でこれほど高スコアを出すとは予想外だった」という驚きが広がり、「AGIへの道のりが想定より短いかもしれない」という議論にもつながっています。
ARC-AGI(抽象的推論コーパス——AGI評価指標)は、人間には容易でもAIには困難な視覚的推論タスクを通じて、真の汎用知能に近いかどうかを測ることを目的としています。そのベンチマークで77%超を達成したことの意味は、AI研究者の間でも解釈が分かれていますが、Geminiシリーズの急速な性能向上がGoogleのAI分野での存在感を一段と高めたことは確かです。Anthropic、OpenAIとの三つ巴の競争は、今後もさらに激しさを増しそうです。