Model Releases Community 2026-03-10 Source →

Google、Gemini 3.1 Proをリリース——ARC-AGI-2で77.1%を達成しGemini 3 Proの2倍以上の推論能力に

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。16のベンチマーク中13で首位を獲得し、特にARC-AGI-2で77.1%、GPQA Diamondで94.3%という驚異的なスコアを記録しています。ARC-AGI-2のスコアはGemini 3 Proの31.1%から2倍以上に向上しました。

今回の「.1」というバージョン番号は、Googleにとって初めての試みです。従来の「.5」刻みのアップデートとは異なり、機能拡張ではなく「知性の集中強化」を意味しているとGoogle DeepMindは説明しています。ARC-AGI-2は、訓練データ外の視覚論理パズルを解く能力を評価するベンチマークで、多段階の抽象化と推論が求められます。GPQA Diamondは物理・生物・化学にまたがる博士レベルの問題を扱い、94.3%という数値はこれまで報告された中で最高スコアとのことです。

注目すべき新機能として「3段階Thinkingシステム」が導入されました。新たに追加された「Medium」パラメータにより、開発者は出力速度と推論深度のバランスを数学的に最適化できます。これにより、タスクの複雑さに応じて計算リソースの配分を柔軟に調整することが可能になりました。

一方、Hacker Newsでは「推論・設計・コード生成は驚くほど優秀だが、実際のタスク遂行ではClaudeに劣る」との声も上がっています。また、高負荷時のレイテンシースパイクが報告されており、本番環境での安定性に懸念を示すユーザーもいます。ベンチマークでは圧倒的な成績を残しているものの、実運用での評価はこれからといったところでしょう。

Google、Gemini 3.1 Proをリリース——ARC-AGI-2で77.1%を達成しGemini 3 Proの2倍以上の推論能力に

関連リンク