Model Releases Community 2026-04-10 Source →

Google Gemini 3.1 Proが主要ベンチマーク16中13で首位——GPQA Diamond 94.3%、APIコストはGPT-5.4の約8割でTPU縦統合がコスト優位の源泉

Google DeepMindが2026年2月19日にリリースした「Gemini 3.1 Pro」が、Artificial Analysis Intelligence Indexをはじめとする主要ベンチマーク16項目中13項目で首位を獲得し、GPT-5.4と並ぶ業界最高水準のモデルとして評価が定まりつつあります。特に抽象推論ベンチマークGPQA Diamondでは94.3%（GPT-5.4は92.8%）、ARC-AGI-2では77.1%を達成。APIコストは入力$2.00/出力$12.00（1MTokあたり）で、GPT-5.4の$2.50/$15.00より約20%安く、バッチAPIは$1.00/$6.00、コンテキストキャッシュは$0.20/Mと大幅に有利な価格体系を持っています。

技術的な優位点として、Gemini 3.1 Proは最大200万トークンのコンテキストウィンドウを提供しており、長文書や大規模コードベースの処理において他モデルを大きく上回ります。NxCodeの比較によると、GPT-5.4がデスクトップ操作（OSWorld 75%）やプロフェッショナル知識評価（GDPval 83%）で優位を持つ一方、Gemini 3.1 Proは抽象推論・長文脈処理・コスト効率の三分野でリードしています。Hacker Newsでは「GoogleのTPU縦統合（設計から製造・運用まで一貫した垂直統合）によるコスト優位」という考察が上位に立ち、他社が同価格帯で競合するのは構造的に難しいという指摘が多く見られます。

X上では「GPT-5.4と同性能で価格が安いならGemini 3.1に乗り換えない理由がない」というエンジニアの声が多数上がっています。r/MachineLearningでは、Geminiが優位なベンチマークの条件を詳細に検証するスレッドが活発で、「Gemini独自タスクで有利な評価が混じっている可能性」を指摘する声も出ています。客観的な競争環境の評価はなお続いていますが、価格差がデプロイコストに直結する大規模利用では、コスト優位が最終的な選択を左右しやすい点は見逃せません。

GPT-5.4とGemini 3.1 Proがほぼ同水準の性能を持ちながらも価格と得意領域で差別化する構図は、AIモデルの「商品化（コモディティ化）」が進んでいることを示しています。今後の競争軸は性能そのものよりも、インテグレーションの容易さ・コスト・エコシステムの厚さに移りつつあるといえそうです。

Google Gemini 3.1 Proが主要ベンチマーク16中13で首位——GPQA Diamond 94.3%、APIコストはGPT-5.4の約8割でTPU縦統合がコスト優位の源泉

関連リンク