Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。注目すべきは、未知の論理パターンを解く能力を測定するARC-AGI-2ベンチマークで77.1%という驚異的なスコアを記録したことです。これはClaude Opus 4.6の68.8%、GPT-5.2の52.9%を大きく上回り、現行のフロンティアモデルの中で圧倒的な首位を獲得しています。
Gemini 3.1 Proは追跡中の18ベンチマーク中16で首位を獲得し、前世代のGemini 3 Proと比較して推論能力が2倍以上向上しました。大学院レベルの科学テストであるGPQA Diamondでも94.3%という史上最高スコアを記録しています。100万トークンのコンテキストウィンドウと6万5000トークンの出力に対応し、複雑なタスクへの対応力も大幅に強化されました。
ただし、現場からの評価は必ずしも好意的ではありません。Hacker Newsでは元Googlerから「開発で最もフラストレーションが溜まるモデル」との批判も上がっています。Redditのr/GeminiAIコミュニティではOpenRouter経由での503エラー頻発が報告されており、2月19日のリリース直後からピーク時のリクエスト失敗率が半数近くに達したという統計も示されています。レイテンシが104秒に達するケースも報告されており、安定性の面では課題が残っています。
ベンチマーク性能では他を圧倒するGemini 3.1 Proですが、実運用での安定性改善は今後の課題となりそうです。過去のパターンから、正式版(GA)は2026年4〜5月頃のリリースが見込まれており、その時点での503エラー頻度やレスポンス遅延の改善が期待されています。
| - [Gemini 3.1 Pro: A smarter model for your most complex tasks | Google Blog](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/) |
|---|---|
| - [Gemini 3.1 Pro - Model Card | Google DeepMind](https://deepmind.google/models/model-cards/gemini-3-1-pro/) |