Model Releases Community 2026-03-04 Source →

Google Gemini 3.1 Proが16ベンチマーク中13で首位獲得、GPQA Diamond 94.3%でAI史上最高スコアを記録

Googleは2026年2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。同モデルは主要な16のベンチマークのうち13で首位を獲得し、特にGPQA Diamond（大学院レベルの科学知識テスト）では94.3%という過去最高スコアを記録しています。

Gemini 3.1 Proは前世代のGemini 3 Proをベースに、推論能力とエージェント型タスクの性能を大幅に強化したモデルです。抽象推論パズルを評価するARC-AGI-2では77.1%を達成し、前世代の31.1%から2倍以上の改善を示しました。コーディング能力を測定するSWE-Bench Verifiedでも80.6%を記録し、エージェント型開発タスクにおいて高い実用性を示しています。コンテキストウィンドウは最大100万トークンに対応し、出力は最大64Kトークンまでサポートします。

価格面でも競争力が際立っています。入力トークンは100万あたり2ドル、出力トークンは12ドルと、競合のClaude Opus 4.6（入力15ドル、出力75ドル）と比較して入力で約60%、出力で約52%安価です。コンテキストキャッシュを活用すれば、さらに75%のコスト削減も可能とされています。Hacker Newsでは元Google社員から「開発時に最もフラストレーションが溜まるモデル」との評価がある一方、性能自体は認める声が多く見られます。Redditでは長文会話でのハルシネーションやメモリ管理の問題を報告するユーザーもおり、実運用での安定性については検証が続いています。

Gemini 3.1 Proは「単純な回答では不十分なタスク」向けに設計されており、Gemini App、Google Cloud Vertex AI、AI Studio、APIなど複数のプラットフォームで利用可能です。コストパフォーマンスを重視する開発者にとって、有力な選択肢となりそうです。

Google Gemini 3.1 Proが16ベンチマーク中13で首位獲得、GPQA Diamond 94.3%でAI史上最高スコアを記録

関連リンク