Model Releases Community 2026-03-24 Source →

Google、Gemini 3.1 Proを発表 — GPQA Diamond 94.3%で過去最高スコア、16ベンチマーク中13で首位

Google DeepMindが2026年2月19日、新たなフラッグシップモデル「Gemini 3.1 Pro」をリリースしました。大学院レベルの科学テスト「GPQA Diamond」で94.3%という過去最高スコアを記録し、16種類のベンチマークのうち13で首位を獲得しています。

Artificial Analysis Intelligence Indexでは57ポイントを獲得し、GPT-5.4 Proと同点で首位に立ちました。これはClaude Opus 4.6（53ポイント）を4ポイント、Sonnet 4.6（51ポイント）を6ポイント上回る結果です。特に注目すべきは、新しい論理パターンを解く能力を測るARC-AGI-2で77.1%を達成し、前モデルの2倍以上の推論性能を示した点です。科学研究向けプログラミングを評価するSciCodeでも59.0%で首位、マルチステップツール連携を測るMCP Atlasでは69.2%を記録しました。

しかしHacker Newsでは開発者から厳しい評価も寄せられています。元Googleエンジニアを含むユーザーからは「推論は優れているが実行段階で失敗する」「ツール利用が下手でファイル編集時に奇妙な手法を使う」との指摘が相次いでいます。思考トークンの表示が不透明で「完全に問題に没頭している」といった内容のない文言が多いこと、ループ状態に陥りやすくトークンを大量に消費する傾向があることも批判されています。一方、非コード関連タスクでは「ChatGPTより正確」との評価や、音声書き起こしやSVG生成など創造的タスクでの実験報告も活発に行われています。

コスト面ではClaude Opusの半額で動作する点が評価されていますが、「Googleは内部優先度に基づいて製品設計している」との指摘もあり、開発者ワークフローでの改善が今後の課題となりそうです。

Google、Gemini 3.1 Proを発表 — GPQA Diamond 94.3%で過去最高スコア、16ベンチマーク中13で首位

関連リンク