Google DeepMindは2月19日、最新のAIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。新たな推論ベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、前世代のGemini 3 Proの31.1%から46ポイントもの大幅な向上を実現しています。
ARC-AGI-2は、AIシステムが暗記に頼って高スコアを得ることを防ぐために設計されたベンチマークで、トレーニングデータに含まれない新規の視覚論理パズルを解く能力を評価します。複数ステップの抽象化と推論が必要なこのテストで、Gemini 3.1 Proは競合のClaude Opus 4.6(68.8%)やGPT-5.3-Codex(52.9%)を大きく上回る結果を出しました。Googleによると、このスコア向上はフロンティアモデルファミリーにおいて単一世代で最大の推論性能ジャンプとなります。
Gemini 3.1 Proは3段階の思考システムを搭載し、100万トークンのコンテキストウィンドウを備えています。Redditのr/MachineLearningでは「実際のタスクでの性能検証を求める」声やベンチマーク偏重への懸念が見られる一方、Hacker Newsではエージェント用途での実用性と競合他社との比較議論が活発に行われています。
GoogleはGemini 3.1 Proについて「最も複雑なタスクに対応するスマートなモデル」と位置づけており、特に数学、コーディング、複雑な問題解決においてフロンティアを押し広げることを目指しています。AI能力の急速な進歩を示す今回のリリースは、業界全体の推論能力向上競争をさらに加速させることになりそうです。