Model Releases Community 2026-04-04 Source →

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%を達成——前世代の31.1%から2倍超の改善、16中13ベンチマークで首位

2月19日にリリースされたGoogle DeepMindの「Gemini 3.1 Pro」が、純粋な論理・問題解決能力を測る難関ベンチマーク「ARC-AGI-2」において77.1%のスコアを記録しました。前世代モデルの31.1%から2倍以上の改善を達成し、Googleが公開した16種のベンチマーク中13種でトップスコアを獲得しています。またAPI経由で100万（1M）トークンのコンテキストウィンドウを標準提供し、長文処理や複雑なコードベースの解析においても大きな前進を示しました。

ARC-AGI-2とは何か、77.1%が意味するもの

ARC-AGI-2は、フランスのAI研究者フランソワ・ショレ氏が設計した「純粋な知的柔軟性」を測るベンチマークで、丸暗記や大量データでの学習では対応困難なパズル形式の問題を課します。従来のLLM（大規模言語モデル）評価指標では測れない、真の汎化能力を問う指標として注目を集めています。DeepMind CEOのデミス・ハサビス氏がX（旧Twitter）でリリースを「AGIマイルストーン」として紹介したことで話題が沸騰しましたが、一方でベンチマーク過信を戒める解説記事も多く公開されました。

r/MachineLearningでは「スコアの絶対値より前世代比2倍超の改善ペースに注目すべき」という分析が上位を占め、同程度のトークン消費で前世代を大幅に上回る改善効率を評価する声が多く見られました。Hacker Newsでは「ARC-AGI-2がここまで機能しているならフランソワ・ショレは正しかった」という感想と、「ベンチマーク飽和が起きる前に次の指標が必要」という議論が並行する形で展開されています。

1Mトークンが切り拓く実用的な可能性

Gemini 3.1 ProをGPT-5.4やClaude Sonnet 4.6と差別化する要素のひとつが、100万トークンのコンテキストウィンドウをAPIで標準提供している点です。一般的な書籍10冊分に相当するテキストを1度のリクエストで処理できるこの規模は、大規模なコードリポジトリの一括解析、長期的な会話コンテキストの維持、法律文書や論文の包括的な要約といった用途で実用的な価値を持ちます。推論能力と長文処理能力を兼ね備えた形での提供は、エンタープライズ向けAI活用において新たなユースケースを切り拓くものとして注目されています。

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%を達成——前世代の31.1%から2倍超の改善、16中13ベンチマークで首位

ARC-AGI-2とは何か、77.1%が意味するもの

1Mトークンが切り拓く実用的な可能性

関連リンク