GoogleがGemini 3.1 Ultraをリリースしました。最大の特徴はコンテキストウィンドウ200万トークンで、テキスト・画像・音声・動画をネイティブに統合処理できるマルチモーダル能力です。長編文書の解析や大規模コードベースの把握、動画コンテンツの意味理解など、単一の入力形式に縛られない業務活用が現実的な選択肢として浮上してきました。
200万トークンとは、日本語の文庫本換算でおよそ300冊分に相当する情報量です。企業内の膨大なドキュメントを一度に読み込んだり、数時間の会議録音をそのまま処理したりといった用途が想定されます。Googleによると、テキスト・画像・音声・動画の4モダリティを「単なる組み合わせ」ではなく統一的に処理する点が前バージョンからの大きな進化とされており、Hacker Newsでは「マルチモーダルの真の統合か、それとも単なる組み合わせか」という技術的な議論が専門家の間で活発に展開されています。
X上では早速「200万トークンで何ができるか」を試した実験投稿が相次ぎ、映画1本丸ごとの分析や大規模コードベース解析の成功報告が話題になっています。Redditのr/Googleでは「Geminiシリーズがようやく本物の競合になってきた」という評価が見受けられ、AnthropicやOpenAIとの価格・性能比較を求めるコメントが多く寄せられています。
GPT-5.5やClaude Opus 4.7との正面競争に加え、「超長文脈処理」という独自の強みを磨いてきたGeminiが市場でどう受け入れられるかは、AI API市場の力学を大きく左右する可能性があります。特に動画解析や複合メディアを扱う企業・クリエイター向けの用途では、同モデルが優位を発揮するシナリオも十分考えられます。