Model Releases Community 2026-05-05 Source →

Google「Gemini 3.1 Ultra」発表——200万トークンコンテキストと94.1% GPQAで長文推論の新基準を打ち立てる

Googleが最新フラッグシップモデル「Gemini 3.1 Ultra」を発表しました。最大の特徴は200万トークンのネイティブコンテキストウィンドウで、テキスト・画像・音声・動画をシームレスに統合処理します。推論ベンチマークのGPQA（Graduate-Level Google-Proof Q&A）では94.1%を達成し、現行最高水準の性能を誇ります。

200万トークンのコンテキストは、一度のセッションで1,500ページ超のテキストや数時間分の動画を処理できる規模です。Googleはこのモデルを「長文脈推論エンジン（long-context reasoning engine）」と位置づけており、ARC-AGI-3やSWE-Bench Proといったアジェンティックなタスクでも強化されています。マルチモーダル対応は従来モデルの延長ではなく、音声と映像を同時解析する統合型アーキテクチャとなっており、企業の複雑なワークフロー自動化に照準を絞った設計です。

X上では「2Mトークンが当たり前になった。1年前の常識が通用しない」とコンテキスト競争の加速に驚く声が多数上がっています。Redditでは「動画・音声のネイティブ処理がGeminiの差別化点。マルチモーダル用途では頭一つ抜けている」という実用面での評価が目立ちます。もっとも、Hacker Newsでは「GPQAのスコアが本当に実用的な推論力を反映しているのか疑問」という批判的なコメントも散見されており、ベンチマーク至上主義への冷静な見方も健在です。

GPT-5.5、Claude Opus 4.7、Kimi K2.6などフロンティアモデルの競争が激化する中、Gemini 3.1 Ultraは「長文脈×マルチモーダル」という軸で独自のポジションを狙っています。コンテキスト拡大競争がどこで実用上の限界を迎えるのか、ユーザーの活用事例から答えが見えてくるでしょう。

Google「Gemini 3.1 Ultra」発表——200万トークンコンテキストと94.1% GPQAで長文推論の新基準を打ち立てる

関連リンク