Model Releases Community 2026-03-20 Source →

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%を達成 — 主要16ベンチマーク中13でトップ、推論性能が2倍以上に

Googleは2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。同モデルは主要16ベンチマーク中13でトップスコアを記録し、特にARC-AGI-2テストでは77.1%という驚異的なスコアを達成しています。

ARC-AGI-2はARC Prizeが運営するベンチマークで、モデルが訓練中に見たことのない完全に新しい論理パターンを認識する能力を測定します。暗記が役に立たないよう設計されているため、高スコアは真の推論能力を示す指標とされています。Gemini 3.1 ProはGemini 3 Proの31.1%から2倍以上の性能向上を達成しました。この77.1%というスコアは、拡張深層思考モードを使用しないフロンティアモデルの中で最高値です。なお、拡張推論を使用するGemini 3 Deep Thinkは84.6%を記録しています。

GPQA Diamond（科学的推論）でも94.3%を達成し、純粋な論理・問題解決能力で他モデルを圧倒しています。100万トークンのコンテキストウィンドウも特徴で、長大な文書や複雑なコードベースの処理に適しています。

X（旧Twitter）では「ChatGPTを完全に捨ててGeminiに移行した」との報告が多数見られ、コーディング、数学、常識推論での優位性が評価されています。一方でRedditの開発者コミュニティからは「最も使いにくいモデル」との声も上がっており、セッション中に会話履歴が消える問題が報告されています。Hacker Newsでは高負荷時に最大104秒のレイテンシーが発生する安定性の問題が議論されており、ベンチマーク性能と実用性のギャップが課題として浮上しています。

GoogleはGemini 3.1 Proを通じてエンタープライズAI市場での存在感を強めており、今後の正式版リリースに向けた安定性改善が注目されます。

- [Gemini 3.1 Pro: A smarter model for your most complex tasks	Google](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/)
- [Gemini 3.1 Pro Model Card	Google DeepMind](https://deepmind.google/models/model-cards/gemini-3-1-pro/)
- [Gemini 3.1 Pro Scores 77.1% on ARC-AGI-2	MarkTechPost](https://www.marktechpost.com/2026/02/19/google-ai-releases-gemini-3-1-pro-with-1-million-token-context-and-77-1-percent-arc-agi-2-reasoning-for-ai-agents/)

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%を達成 — 主要16ベンチマーク中13でトップ、推論性能が2倍以上に

関連リンク