Google DeepMindは2月19日、Gemini 3.1 Proをプレビュー公開しました。抽象推論ベンチマーク「ARC-AGI-2」で77.1%を達成し、Claude Opus 4.6の68.8%、GPT-5.2の52.9%を大きく上回っています。大学院レベルの科学知識を問う「GPQA Diamond」では94.3%と過去最高スコアを記録し、コーディングベンチマーク「SWE-Bench Verified」でも80.6%に到達しました。
Gemini 3.1 Proは100万トークンのコンテキストウィンドウを搭載し、AIエージェントとしての利用を想定した設計がなされています。ARC-AGI-2のスコアは前世代のGemini 3 Pro(31.1%)から倍以上に向上しており、DeepMindが推進してきた推論能力強化の成果が数字として表れた形です。
ただしRedditでは「論理やコーディングは印象的だが、感情的な深みや共感、創造性は3.0時代より低下している」という声も上がっています。Hacker Newsでも「タスク指向のプロンプトには強いが、カジュアルな質問では一貫性に欠ける」との報告があり、得意分野と苦手分野が明確になっているようです。ベンチマークの数字が実際の使用感とどう結びつくか、今後のユーザー評価に注目が集まります。