Googleは4月、最上位モデル「Gemini 3.1 Ultra」を一般公開しました。最大200万トークンのコンテキストウィンドウ(日本語で約600冊分の文庫本に相当)と、テキスト・画像・音声・動画を対等に扱うネイティブマルチモーダルアーキテクチャが最大の特徴です。科学推論ベンチマーク「GPQA Diamond」では94.3%、汎用推論テスト「ARC-AGI-2」では77.1%を達成し、現時点で最高水準のスコアを記録しています。
これまで大規模言語モデル(LLM)の最大の制約のひとつは、一度に処理できるテキスト量の限界でした。Gemini 3.1 Ultraの200万トークン対応は、長大なコードベース全体、数千ページに及ぶ契約書類、数時間分のビデオ会議記録などを1回のリクエストで処理できることを意味します。Googleの発表によると、同モデルはテキスト・画像・音声・動画のすべてを同一の重みで同時処理するネイティブマルチモーダル設計を採用しており、モダリティをまたいだ推論が従来より自然に行えるとされています。
性能面では、博士レベルの科学的推論を測るGPQA Diamondで94.3%という高スコアをマーク。また抽象的・常識的推論の難関テストであるARC-AGI-2で77.1%を達成しており、「人間レベルに近づいてきた」という議論がr/MachineLearningで活発に交わされています。Googleは深い推論を必要とする複雑タスク向けの「Ultra」と、高速・省コスト処理を優先する「Flash-Lite」の2モデル体制を採用しており、用途による使い分けが想定されています。
X(旧Twitter)では200万トークンコンテキストの実用デモが大量に拡散しており、コードベース全体を一度に解析したり、映画1本分の台本を丸ごと投入して分析するといった活用例が注目を集めました。Hacker Newsでは「GPT-5.4・Claude Mythosとの性能比較」スレが立ち上がり、「マルチモーダルの本命が来た」という評価が多数見られます。
AI業界は今、大手各社が相次いでフラッグシップモデルを投入するサイクルに入っています。Gemini 3.1 Ultraに先立ち、Anthropicはセキュリティ特化のClaude Mythosを発表し、OpenAIはGPT-5.4で1Mトークンコンテキストに対応。MetaもMuse Sparkを投入しました。Gemini 3.1 UltraはそのなかでもARC-AGI-2の高スコアとネイティブマルチモーダルの組み合わせで差別化を図っており、長文処理・複合推論が求められるエンタープライズ用途での採用が今後増えると見られています。