Model Releases Community 2026-04-13 Source →

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%達成—前世代比2倍超の推論力と100万トークンコンテキストを搭載

Google DeepMindは2026年2月19日、最新フラッグシップモデル「Gemini 3.1 Pro」を公開しました。100万トークンのコンテキストウィンドウと、前世代モデルから2倍以上の推論性能向上を実現し、未学習の論理問題を解くARC-AGI-2ベンチマークで77.1%を記録しています。

100万トークンと77.1%が意味すること

ARC-AGI-2（Abstraction and Reasoning Corpus）は、訓練データに含まれない完全に新規の論理推論問題を解く能力を測る指標で、暗記に頼れないため現在のLLMにとって最も難しいベンチマークのひとつとされています。Gemini 3 Proがおよそ35〜38%だったのに対し、3.1 Proは77.1%と倍増させており、Google AIによると「推論の質的な改善」によるものだと説明されています。GPQA Diamondでは94.3%、コード補完の実用指標であるSWE-Benchでも80.6%と、幅広いカテゴリで高水準を示しています。

コンテキストウィンドウが100万トークンに達したことで、長大なコードベースや法律文書全体をモデルに与えたまま会話できるようになりました。出力上限も64,000トークンと大幅に拡張されており、長文生成タスクでのボトルネックが解消されています。マルチモーダル面ではテキスト・画像・音声・動画・コードをひとつのモデルでネイティブに処理でき、リアルタイムの音声・画像解析にも対応しています。

X（旧Twitter）では「フロンティアモデルの能力が月単位で更新されている」という驚きの声が上がる一方、r/MachineLearningでは「ARC-AGI-2の77%は印象的だが、ベンチマーク飽和が近い。次の評価基準が必要」という冷静な見方も出ています。Hacker Newsでは100万トークンの実用性を問う議論が活発で、「コンテキストが長くなるほどモデルの注意が分散する問題を本当に解決したのかどうかが鍵だ」との技術的な指摘が注目を集めました。

価格は入力100万トークンあたり2ドル、出力100万トークンあたり12ドルで、Gemini 3 Proから据え置きとなっています。性能が大幅に向上しながら価格が維持されたことは、AIコスト競争の激しさを改めて示す出来事といえるでしょう。

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%達成—前世代比2倍超の推論力と100万トークンコンテキストを搭載

100万トークンと77.1%が意味すること

関連リンク