Model Releases Community 2026-04-01 Source →

Gemini 3.1 ProがARC-AGI-2で77.1%を達成——前世代の2倍超、16ベンチマーク中13項目でClaude・GPTを上回る

Google DeepMindが2月19日にリリースした「Gemini 3.1 Pro」が、AIの汎用的推論能力を測るとされるARC-AGI-2ベンチマークで77.1%を記録しました。前世代のGemini 3 Proの2倍超のスコアを叩き出し、Claude Opus 4.6およびGPT-5.2を上回ったとされます。さらに科学的知識の深さを測るGPQA Diamondでは94.3%を達成し、16の主要ベンチマーク中13項目でトップに立ちました。

Gemini 3.1 Proの特徴として注目されているのが、100万（1M）トークンのコンテキストウィンドウと完全なネイティブマルチモーダル推論（テキスト・画像・音声・動画の統合処理）です。DeepMindによると、従来の「見る・聞く・理解する」機能を別々のモジュールで処理する手法ではなく、マルチモーダルデータを単一のアーキテクチャで一体的に扱うことで、複雑な推論タスクにおけるパフォーマンスが大幅に向上したとのことです。コーディングや科学的推論での優位性が特に際立っており、複雑なプログラム生成タスクでも高い精度を示しています。

X（旧Twitter）では「Gemini 3.1 Proは現時点で最強のProレベルモデル」とする評価が多数を占めています。一方、Reddit（r/MachineLearning）ではベンチマーク結果の信頼性についての議論が巻き起こりました。GPQA Diamondで人間の専門家を超えたという報告を歓迎する声がある一方、「リーダーボード汚染（モデルがベンチマーク問題を学習することで過度に高いスコアを出すこと）」を懸念するコメントも上位に並んでいます。Hacker Newsでは「GoogleがARC-AGI-2でこれほど高スコアを出すとは予想外だった」という驚きが広がり、「AGIへの道のりが想定より短いかもしれない」という議論にもつながっています。

ARC-AGI（抽象的推論コーパス——AGI評価指標）は、人間には容易でもAIには困難な視覚的推論タスクを通じて、真の汎用知能に近いかどうかを測ることを目的としています。そのベンチマークで77%超を達成したことの意味は、AI研究者の間でも解釈が分かれていますが、Geminiシリーズの急速な性能向上がGoogleのAI分野での存在感を一段と高めたことは確かです。Anthropic、OpenAIとの三つ巴の競争は、今後もさらに激しさを増しそうです。

Gemini 3.1 ProがARC-AGI-2で77.1%を達成——前世代の2倍超、16ベンチマーク中13項目でClaude・GPTを上回る

関連リンク