Googleは2026年5月19日にリリースした「Gemini 3.5 Flash」を、Google検索とGeminiアプリのデフォルトモデルとして採用しました。エージェント向けおよびコーディング作業に最適化されたモデルで、Terminal-Bench 2.1で76.2%、MCP Atlas(MCPプロトコル対応ベンチマーク)で83.6%、数学的グラフ問題評価のCharXivで84.2%を達成しています。
価格は入力150万トークンあたり1.50ドル、出力9ドルとなっています。Googleの自社ベンチマークでは前世代から大幅な改善が示されていますが、独立した評価では異なる側面も浮かび上がっています。LLMのユーザー投票型評価プラットフォームArenaでは9位にとどまっており、コーディング補完ツール向け評価のCursorBenchでは低評価という結果も報告されています。特に幻覚(ハルシネーション)の少なさと視覚系タスクの改善は実際のユーザーからも評価されている一方で、自社発表値と独立評価の乖離への疑問は拭えない状況です。
Hacker Newsでは「FlashがGemini 3.1 Proより速くて賢いのは事実だが、価格が以前より上がっている」「幻覚が少なく視覚系タスクは改善された」という実際の使用感が投稿されました。r/MachineLearningではGoogleの自社ベンチマークと独立ベンチマークの乖離を指摘する声が多く、特に「Arenaで9位だった」という結果が引用されて批判的な議論につながっています。X上では「Google I/O 2026でのGemini 3.5発表は期待に比べてインパクトが弱かった」という感想と「Flash系は速度重視ユーザーには最有力」という擁護論が並行して見られます。
Googleは検索とGeminiアプリという巨大な配布チャネルを通じてFlashを事実上のデフォルトAIとして定着させる戦略をとっています。独立ベンチマークでの評価改善が今後の普及を左右する鍵となりそうで、自社評価と市場の評価の差を縮めることが次のステップとして求められています。