Googleが2月19日に公開したGemini 3.1 Proが、独立評価機関による16の主要ベンチマーク中13項目でトップスコアを記録し、フロンティアモデルの新基準を打ち立てました。コード生成能力の指標であるSWE-bench Verifiedで80.6%、科学・数学の高度な推論を測るGPQA Diamondで94.3%を達成し、GPT-5.4とClaude Opus 4.6を上回っています。
MindStudioの評価によると、Gemini 3.1 Proが首位を取れなかったのは16ベンチマーク中わずか3項目のみです。特にSWE-bench 80.6%は、AIがGitHub上の実際のソフトウェアバグを自律的に修正できる割合を示す指標であり、80%超えはフロンティアモデル間でも初めての領域に踏み込む水準です。GPQA Diamondの94.3%は、人間の専門家(物理・化学・生物学の博士レベル)が解く問題において、人類の平均的な専門家水準を大幅に超えていることを意味します。
もっとも、X上では「ベンチマーク上位独占に対し、実際の開発タスクでの使用感がスコアを反映しているかを問う声が続出」しており、数値と実用感のギャップを指摘するエンジニアの声は少なくありません。Hacker Newsでも「GPQA Diamondの94.3%という数字に驚きつつも、ベンチマーク飽和問題への懸念コメントが多数」寄せられています。複数のフロンティアモデルが同一ベンチマークで高得点を連発するようになると、ベンチマーク自体が難易度の指標として機能しなくなるという「飽和問題」は、AI評価における根本的な課題として浮上しています。
Gemini 3.1 Proの台頭は、GoogleがAI性能競争においてOpenAIとAnthropicに並ぶポジションを確立したことを示しています。ベンチマーク上の優位がAPIコストや使い勝手の良さと結びついたとき、開発者の選好がどう動くか——2026年前半の最大の注目点の一つです。