Google DeepMindは2月、推論能力を大幅に強化した「Gemini 3.1 Pro」を発表しました。新しい論理パターンを解く能力を測るARC-AGI-2ベンチマークで77.1%を達成し、前世代の3 Proから推論性能が2倍以上に向上。18の主要ベンチマークのうち12で首位を獲得しています。
Gemini 3.1 Proは競技プログラミングのLiveCodeBench Proで2887 Elo、実世界のソフトウェア開発タスクを測るSWE-Bench Verifiedで80.6%、大学院レベルの科学問題GPQA Diamondで94.3%を記録しました。特筆すべきは、ARC-AGI-2でAnthropic Opus 4.6を12%上回っている点です。価格は入力100万トークンあたり2ドル、出力12ドルと前世代と同一で、大幅な性能向上を追加コストなしで提供しています。
Redditでは、Windows 11風のWebOSをワンショットで生成したデモが話題となり、コーディング能力への評価が高まっています。一方でX上では「論理的推論は向上したが、感情的な深みや創造性が減少した」「魂が失われた」との批判的な声も上がっており、性能向上と表現力のトレードオフが議論を呼んでいます。ベンチマーク競争が激化する中、Googleは数値上の優位性を確保しましたが、ユーザー体験での評価は分かれそうです。
| - [Gemini 3.1 Pro: A smarter model for your most complex tasks | Google Blog](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/) |
|---|---|
| - [Google launches Gemini 3.1 Pro, retaking AI crown | VentureBeat](https://venturebeat.com/technology/google-launches-gemini-3-1-pro-retaking-ai-crown-with-2x-reasoning) |
| - [Gemini 3.1 Pro Model Card | Google DeepMind](https://deepmind.google/models/model-cards/gemini-3-1-pro/) |