Model Releases Community 2026-03-18 Source →

Google Gemini 3.1 ProがARC-AGI-2で77.1%、GPQA Diamondで94.3%を達成し16ベンチマーク中13項目でトップ

Google DeepMindが2月19日にリリースしたGemini 3.1 Proが、AI業界に大きな衝撃を与えています。抽象的推論能力を測定するARC-AGI-2ベンチマークで77.1%、大学院レベルの科学知識を問うGPQA Diamondで94.3%を達成し、16の主要ベンチマーク中13項目で首位を獲得しました。

特筆すべきはARC-AGI-2での躍進です。前世代のGemini 3 Proが31.1%だったのに対し、77.1%と2倍以上のスコアを記録しました。これは人間の抽象的推論に近づく大きな一歩として評価されています。GPQA Diamondの94.3%は、これまで報告された中で最高スコアとなり、Claude OpusやGPT-5をも上回りました。また、ソフトウェアエンジニアリング能力を測るSWE-Bench Verifiedでも80.6%を達成しています。

X上ではリリースから数時間でスクリーンショットが拡散され、「GPT-4以来最大の飛躍」との声が上がりました。Redditではコード生成やUI/SVGの品質向上を評価する声がある一方、長文会話での不安定さを指摘するユーザーも見られます。Hacker Newsではベンチマーク特化への懐疑論と実用性に関する議論が混在しており、「ベンチマークでの勝利が実際の使用感に直結するとは限らない」という冷静な見方も示されています。

Gemini 3.1 Proの登場により、AI性能競争は新たな局面に入りました。Google、OpenAI、Anthropicの三つ巴の競争は激化の一途をたどっており、ユーザーにとっては選択肢が増える嬉しい状況と言えます。ただし、ベンチマークスコアだけでなく、実際のタスクでの使い勝手や信頼性も含めた総合的な評価が重要になってきています。

- [Gemini 3.1 Pro - Model Card	Google DeepMind](https://deepmind.google/models/model-cards/gemini-3-1-pro/)
- [Gemini 3.1 Pro Review	Medium](https://medium.com/@leucopsis/gemini-3-1-pro-review-1403a8aa1a96)
- [Gemini 3.1 Pro Complete Guide 2026	NxCode](https://www.nxcode.io/en/resources/news/gemini-3-1-pro-complete-guide-benchmarks-pricing-api-2026)

Google Gemini 3.1 ProがARC-AGI-2で77.1%、GPQA Diamondで94.3%を達成し16ベンチマーク中13項目でトップ

関連リンク