Model Releases Community 2026-03-22 Source →

Google Gemini 3.1 ProがARC-AGI-2ベンチマークで77.1%を達成、前世代から2倍以上の推論性能向上

Google DeepMindは2026年2月19日、最新の大規模言語モデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。同モデルはARC-AGI-2ベンチマークで77.1%というスコアを達成し、前世代のGemini 3 Proが記録した31.1%から2倍以上の性能向上を実現しています。

ARC-AGI-2はARC Prize財団が運営するベンチマークで、モデルが訓練時に見たことのない全く新しい論理パターンを認識・解決する能力を測定します。暗記が通用しない設計になっており、高スコアは真の「パターン推論能力」を示すとされています。競合モデルとの比較では、Claude Opus 4.6の68.8%、GPT-5.2の52.9%を大きく上回っており、Gemini 3.1 Proがフロンティアモデル三強の中でも推論能力において優位に立っていることを示しています。

X上では「ARC-AGI-2での高スコアは一般推論能力の向上を示す」と評価する声が上がっています。Hacker Newsでは「GPT-5.4、Claude 4.6と並ぶフロンティアモデル三強」との位置づけで議論が活発化しています。Gemini 3.1 Proは100万トークンのコンテキストウィンドウを備え、テキスト・画像・音声・動画・コードにわたるマルチモーダル推論を実現しており、エンタープライズAI市場における競争がさらに激化することが予想されます。

Google Gemini 3.1 ProがARC-AGI-2ベンチマークで77.1%を達成、前世代から2倍以上の推論性能向上

関連リンク