Model Releases Community 2026-03-06 Source →

Google Gemini 3.1 Pro、16ベンチマーク中13で首位を獲得―ARC-AGI-2で77.1%、推論能力が前世代の2倍以上に

GoogleのAI研究部門DeepMindは2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。同モデルは主要な16のベンチマークテストのうち13で首位を獲得し、特に抽象的推論や科学的知識を問うテストで他社モデルを大きく引き離しています。

最も注目すべきは、新規のパターン認識能力を測定するARC-AGI-2（Abstraction and Reasoning Corpus）ベンチマークでの成績です。Gemini 3.1 Proは77.1%という検証済みスコアを達成しましたが、これは前世代のGemini 3 Pro（31.1%）の2倍以上にあたります。競合他社と比較しても、AnthropicのOpus 4.6（68.8%）やOpenAIのGPT-5.2（52.9%）を大幅に上回っています。大学院レベルの科学知識を問うGPQA Diamondテストでも94.3%を記録し、PCMagによればこのベンチマークで過去最高スコアとのことです。

開発者コミュニティでは、この推論能力の飛躍的向上に驚きの声が上がっています。JetBrainsのAI責任者Vladislav Tankov氏は「より強力で、より高速で、より効率的」と評価しました。一方、Redditのr/MachineLearningでは、ベンチマーク手法そのものへの技術的な議論も活発に行われており、「純粋なベンチマークスコアと実際の業務での使い勝手は別物」という指摘も見られます。ツール呼び出しの信頼性や開発環境との統合面では、競合モデルに劣るとの声もあります。

GoogleはGemini 3.1 Proについて、推論をより効率的に行い、少ない出力トークンでより信頼性の高い結果を出せると説明しています。AIモデルの性能競争が新たな段階に入ったことを示す発表といえるでしょう。

- [Gemini 3.1 Pro: A smarter model for your most complex tasks	Google Blog](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/)
- [Gemini 3.1 Pro - Model Card	Google DeepMind](https://deepmind.google/models/model-cards/gemini-3-1-pro/)
- [Gemini 3.1: Features, Benchmarks, Hands-On Tests	DataCamp](https://www.datacamp.com/blog/gemini-3-1)

Google Gemini 3.1 Pro、16ベンチマーク中13で首位を獲得―ARC-AGI-2で77.1%、推論能力が前世代の2倍以上に

関連リンク