Google DeepMindが2026年3月3日、Gemini 3.1スイートの中で最もコスト効率に優れた「Flash-Lite」モデルをプレビュー公開しました。Google公式ブログによると、同モデルは前世代のGemini 2.5 Flashと比較してTime to First Token(最初のトークンが出力されるまでの時間)が2.5倍短縮され、出力速度も45%向上。実測値では1秒あたり381トークンを処理しており、価格は入力1Mトークンあたり0.25ドル・出力1Mトークンあたり1.50ドルと業界最安水準を目指した設定になっています。
VentureBeatの報道によると、Flash-LiteはGemini 3.1 Proの約8分の1の価格で提供されています。モデルはGemini APIおよびGoogle AI Studio、エンタープライズ向けのVertex AI経由で利用でき、最大100万トークンのコンテキストウィンドウとテキスト・画像・音声・動画のマルチモーダル入力をフルサポートしています。SiliconAngleは「Googleがコストと速度でAPIマーケットの主導権を狙っている」と分析しており、スタートアップや中小企業の開発コスト削減への期待が高まっています。
Redditのr/MachineLearningでは「Googleがコストと速度で攻勢をかけている」という評価が支持を集め、とくに「長文処理を伴うエージェントアプリケーションの開発が現実的になった」という開発者の声がX上で多数広まりました。Gemini 3.1 Flash-Liteは100万トークンのコンテキストを持つため、書類審査・コードレビュー・長文要約といった大量テキストを扱うタスクを安価かつ高速に実行できます。
AI APIの低価格化競争はOpenAI、Anthropic、Googleの三者間で加速しており、Flash-Liteの登場はその象徴的な一手です。エージェントアーキテクチャ(AIが複数ステップで自律的にタスクをこなす仕組み)の普及とともに「大量のAPIコールを安価に処理できるモデル」の需要は急増しており、Flash-Liteはそのニーズに正面から応えるモデルといえます。