Googleは3月3日、大規模開発者ワークロード向けに最適化された新モデル「Gemini 3.1 Flash-Lite」をプレビュー版としてリリースしました。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルという価格設定は、Gemini 3.1 Proの8分の1のコストであり、大量のAPIコールを行う開発者にとって大きなコスト削減になります。
Flash-Liteの性能面でも注目すべき進化があります。Artificial Analysisのベンチマークによると、前世代のGemini 2.5 Flashと比較して、最初のトークン出力までの時間(TTFT)が2.5倍高速化、出力速度も45%向上しています。品質面では同等かそれ以上を維持しながら、この速度向上を実現しました。コンテキストウィンドウは最大100万トークンをサポートしており、長文ドキュメントの処理や大規模なコードベースの分析にも対応できます。X上ではコスト重視の開発者から好評の声が上がっており、APIコスト削減への期待が広がっています。
モデルはGoogle AI StudioのGemini APIおよび企業向けのVertex AIを通じて、プレビュー版として利用可能です。大規模なバッチ処理、リアルタイム性が求められないワークロード、コスト最適化が重要なユースケースにおいて、Flash-Liteは有力な選択肢となりそうです。AI APIの価格競争が激化する中、Googleのこの動きは他社への圧力となることは間違いありません。