Model Releases Community 2026-03-19 Source →

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%・GPQA Diamondで94.3%を記録し16ベンチマーク中13で首位

Google DeepMindは2月19日、Gemini 3.1 Proのプレビュー版をリリースしました。同モデルは抽象推論ベンチマーク「ARC-AGI-2」で77.1%を達成し、わずか3ヶ月前のGemini 3 Proの記録を2倍以上上回りました。

ARC-AGI-2は、AIシステムが単純な暗記で高スコアを取ることを防ぐよう設計されたベンチマークです。Gemini 3.1 Proの77.1%という数字は、Claude Opus 4.6の68.8%、GPT-5.2の52.9%を大きく引き離しており、現行のフロンティアモデル全体をリードしています。また、大学院レベルの科学試験「GPQA Diamond」では94.3%を記録し、これは同ベンチマークでの過去最高スコアとなりました。比較として、Gemini 3 Proは91.9%、Opus 4.6は91.3%、GPT-5.2は92.4%でした。全体として、16のベンチマーク中13で首位を獲得しています。

X上ではWindows 11風のWebOSを単一プロンプトで生成するデモ動画が話題になりました。一方でRedditでは「ベンチマークは素晴らしいが、結局Geminiモデル」と冷静な反応も見られます。Hacker Newsでは「3 Proの時点で本来あるべき完成度に達したのでは」との評価があり、改善は認めつつも期待値の調整が必要との声も上がっています。科学・論理推論での圧倒的性能が、実際のユーザー体験にどう反映されるかが今後の注目点となりそうです。

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%・GPQA Diamondで94.3%を記録し16ベンチマーク中13で首位

関連リンク