Model Releases Community 2026-04-21 Source →

Google Gemini 3.1 Ultraリリース：200万トークンコンテキスト・GPQA Diamond 94.3%でGPT-5.4を上回る推論性能

Googleが最新の大規模言語モデル「Gemini 3.1 Ultra」を正式リリースしました。最大200万トークンというコンテキストウィンドウを持つ本モデルは、難易度の高い博士レベル推論ベンチマーク「GPQA Diamond」で94.3%を達成し、OpenAIのGPT-5.4およびAnthropicのClaude Opus 4.6を上回る結果を示しています。

2Mトークンで何が変わるか

これまでの最大級モデルでも128k〜1Mトークン程度が主流でしたが、Gemini 3.1 Ultraは200万トークン（日本語換算でおよそ600万字以上）のコンテキストウィンドウを持ちます。Google自身が公開したデモでは「1500ページ相当の文書を1セッションで処理する」様子が披露され、AIエンジニアのあいだでスクリーンショットが広く拡散しました。論文の全文をまるごと投入した分析や、大規模コードベースの横断的な理解といった用途で、従来モデルとの体験差が顕著になるとみられます。

ベンチマーク面ではGPQA Diamond（科学・医学・法律の専門家向け問題）で94.3%、さらに汎用推論テスト「ARC-AGI-2」でも77.1%を記録しました。ネイティブ動画・音声の理解機能も強化されており、テキストだけでなくマルチモーダルなインプットへの対応力が一段と向上しています。AI Overviewsとの統合も深まり、Google検索体験への波及効果も期待されています。

r/MachineLearningでは独立した研究者によるベンチマーク再現実験の報告がすでに投稿され、Googleの発表数値の検証作業が進んでいます。Hacker Newsでは「2Mトークンの実用性はコスト次第」という冷静なコメントが上位を占め、API価格設定に注目が集まっています。

「性能トップ」は今後どこまで続くか

LLMの性能競争は現在、季節ごとにトップが入れ替わるほど激化しています。Gemini 3.1 UltraがGPT-5.4を上回ったという発表は、逆に言えばOpenAIやAnthropicが次の返し手を準備していることを意味します。とはいえ、200万トークンという長大なコンテキストウィンドウはベンチマークスコアとは別次元の差別化要因であり、エンタープライズや研究用途での採用を後押しする可能性があります。価格と実際のスループット性能が明らかになるにつれ、採用判断が進むでしょう。

Google Gemini 3.1 Ultraリリース：200万トークンコンテキスト・GPQA Diamond 94.3%でGPT-5.4を上回る推論性能

2Mトークンで何が変わるか

「性能トップ」は今後どこまで続くか

関連リンク