Googleは2026年3月3日、新モデル「Gemini 3.1 Flash-Lite」をプレビュー公開しました。前世代のGemini 2.5 Flashと比べて処理速度が2.5倍に向上し、入力コストは$0.25/100万トークン、出力コストは$1.50/100万トークンという業界最安水準の価格設定で、高ボリューム・低コスト重視の開発者・企業向けに提供されています。
Googleの公式ブログによると、Gemini 3.1 Flash-Liteは実測で381.9トークン/秒の出力速度を記録しており、Gemini 2.5 Flashの232.3トークン/秒を64%上回ります。ベンチマーク面でも、GPQA Diamond(高度な科学的推論テスト)で86.9%、MMMU Pro(マルチモーダル理解評価)で76.8%を達成しており、前世代を超える性能を示しています。Arena.aiリーダーボードのEloスコアは1432で、同価格帯のモデルとしては最高水準とされています。入力コンテキスト窓は100万トークンで、GPT-5 miniの128Kトークンを大幅に上回り、長文書処理やRAG(検索拡張生成)用途で優位性を発揮します。Google AI StudioおよびVertex AI経由で開発者向けに提供中です。
X上では「$0.25/Mは破格。API料金戦争がついに本格化した。AnthropicやOpenAIはどう応じる?」という声が多数上がっています。Redditのr/MachineLearningではコストパフォーマンス比較が多数投稿されており、スタートアップにとっての朗報として受け止められています。Hacker Newsでは「低コストの推論がAI採用率を10倍にする可能性がある」という楽観的な分析コメントが上位に並んでいます。
Gemini 3.1 Flash-LiteはGemini 2.5 Flashの出力コストを約40%削減しており、大量のAPIコールが必要なプロダクション環境での導入コストを大幅に引き下げます。Googleが「最もコスト効率の高いモデル」と位置づけるこのリリースにより、AI APIの低価格競争はさらに激化する見通しで、AnthropicのHaikuシリーズやOpenAIのGPT-5 miniとの価格競争が本格的に始まりそうです。