Googleが2月19日に公開したGemini 3.1 Pro Previewは、純粋な論理・問題解決テストであるARC-AGI-2で77.1%を記録し、前モデルGemini 3 Proの31.1%から2倍以上の推論性能向上を達成した。16のベンチマーク中13で首位を獲得し、複雑なマルチステップタスクに特化した設計が評価されている。
ARC-AGI-2は、ARC Prizeが運営するベンチマークで、モデルが訓練中に見たことのない完全に新しいロジックパターンを認識する能力を測定する。このベンチマークは暗記を無意味にするよう特別に設計されており、真の推論能力を評価する最も厳格なテストの一つである。
Gemini 3.1 ProがこのベンチマークでGemini 3 Proの31.1%から77.1%へと劇的に向上したことは、単なる増分改善ではなく、推論アーキテクチャにおける根本的なブレークスルーを示唆している。77.1%という検証済みスコアはARC Prizeによって確認されており、この結果の信頼性は高い。
Gemini 3.1 Proは100万トークンのコンテキストを備え、AIエージェント向けに設計されている。複雑なマルチステップタスクを処理する能力が強化されており、企業向けアプリケーションや高度な推論を必要とするユースケースに最適化されている。
この発表は、2026年2月のAIモデル競争において、AnthropicのClaude Sonnet 5、OpenAIのGPT-5.3-Codexと並ぶGoogle DeepMindの重要な一手となっている。
| - [Gemini 3.1 Pro Model Card | Google DeepMind](https://deepmind.google/models/model-cards/gemini-3-1-pro/) |
|---|---|
| - [Gemini 3.1 Pro | Google AI Blog](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/) |
| - [Google AI Releases Gemini 3.1 Pro | MarkTechPost](https://www.marktechpost.com/2026/02/19/google-ai-releases-gemini-3-1-pro-with-1-million-token-context-and-77-1-percent-arc-agi-2-reasoning-for-ai-agents/) |
| - [Gemini 3.1 Pro Benchmarks | Gend](https://www.gend.co/blog/gemini-3-1-pro-benchmarks) |