Model Releases Community 2026-03-08 Source →

Gemini 3.1 ProがARC-AGI-2で77.1%を達成、前世代の2倍以上でフロンティアモデル首位に

Google DeepMindは2月19日、Gemini 3.1 Proを発表しました。最大の注目点は、AIの汎用的推論能力を測るベンチマーク「ARC-AGI-2」で77.1%を達成したことです。これは前世代のGemini 3 Pro（31.1%）の2倍以上であり、Claude Opus 4.6の68.8%、GPT-5.3-Codexの52.9%を大きく上回るフロンティアモデル最高スコアとなります。

ARC-AGI-2は、AIシステムが訓練データを「暗記」して高得点を取ることを防ぐよう設計されたベンチマークで、完全に新規の視覚論理パズルを解く能力を測定します。Gemini 3.1 Proがここで高得点を記録したことは、単なる記憶力ではなく、真の推論能力の向上を示唆しています。また、GPQA Diamond（大学院レベルの科学問題）でも94.3%を記録しました。

JetBrainsのVladislav Tankovは「15%の品質向上に加え、より高速で効率的になった」とX上で評価しています。Hacker Newsでは「ARC-AGI-2で77%は『解決』ではないが、フロンティアモデルとベンチマーク上限の差が『改良の問題』になった転換点だ」との分析が見られます。DatabricksのCTOは、企業向けタスク「OfficeQA」でベストインクラスの結果を報告しています。

かつては「AGIには程遠い」と言われていたARC-AGIですが、77%という数字はその認識を変える可能性があります。ベンチマークを追い越すことが「いつか」から「どれくらいで」に変わりつつある中、GoogleはGemini 3.1 Proで推論性能のリーダーシップを取り戻しました。

- [Gemini 3.1 Pro: A smarter model	Google Blog](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/)
- [Gemini 3.1 Pro Scores 77.1% on ARC-AGI-2	Medium](https://medium.com/@rogt.x1997/gemini-3-1-pro-scores-77-1-on-arc-agi-2-and-quietly-rewrites-enterprise-ai-9941ad1b2082)
- [Gemini 3.1 Pro Model Card	Google DeepMind](https://deepmind.google/models/model-cards/gemini-3-1-pro/)

Gemini 3.1 ProがARC-AGI-2で77.1%を達成、前世代の2倍以上でフロンティアモデル首位に

関連リンク