Model Releases Community 2026-05-04 Source →

Google、Gemini 3.1 Flash-Liteを正式公開——381トークン/秒・$0.25/Mトークンで「ほぼゼロコスト推論」を実現

Googleが、同社史上最速のプロダクションモデル「Gemini 3.1 Flash-Lite」を正式に一般公開しました。入力トークン単価$0.25/百万トークン（出力は$1.50/百万トークン）という超低コスト価格設定と、381トークン/秒の処理速度を組み合わせた同モデルは、大量推論が必要なアプリケーションにとって実質的なゲームチェンジャーになり得るとして開発者コミュニティから高い関心を集めています。

Google AIの発表によると、Gemini 3.1 Flash-Liteはエッジデプロイや大規模バッチ処理を主なターゲットとして設計されており、前世代の2.5 Flashと比較して最初のトークン出力までの時間（TTFT）が2.5倍短縮、出力速度は45%向上しています。コンテキストウィンドウは100万トークンに対応し、最大64,000トークンの出力生成が可能です。価格面では競合のClaude 4.5 Haiku（入力$1.00/百万トークン）と比べて4分の1のコストに抑えられており、Artificial Analysisのベンチマークでもコストパフォーマンスの高さが裏付けられています。開発者向けプレビューは2026年3月3日にGoogle AI StudioおよびVertex AIで先行提供が始まっており、今回が正式リリースとなります。

X（旧Twitter）では「$0.25/Mトークンはほぼゼロコスト——大量推論が必要なアプリのゲームチェンジャー」という声が広がり、Hacker Newsでも「低レイテンシが必要なアプリケーションの標準モデルになりそう」との評価が相次いでいます。特に広告配信の動的パーソナライズ、リアルタイムチャットボット、コンテンツモデレーションといった常時稼動・大量処理が求められるユースケースでの採用が期待されています。一方、創造的文章生成や多段階推論を伴う複雑タスクでは上位モデルのGemini 3.1 Ultraとの使い分けが必要との指摘も見られます。

AIモデルのコモディティ化が急速に進む中、Googleが「速度と価格」で市場の底辺を押さえる戦略をとっていることは明確です。今後、OpenAIやAnthropicが同等の低コストモデルをどのように対抗させてくるか、コスト競争のさらなる激化が予想されます。エッジデバイスから大規模クラウドまで、あらゆる階層でAI推論が「インフラ化」していく流れを象徴するリリースといえるでしょう。

Google、Gemini 3.1 Flash-Liteを正式公開——381トークン/秒・$0.25/Mトークンで「ほぼゼロコスト推論」を実現

関連リンク