← 2026-04-02
Model Releases Community 2026-04-02 Source →

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、AIエージェントランキング首位に — Flash-Liteは競合の4分の1の価格を実現

Googleは2026年2月19日、「Gemini 3.1 Pro」を正式リリースしました。汎用推論能力の評価指標として注目される「ARC-AGI-2」において77.1%を達成したと発表したほか、AIエージェントの総合性能評価ランキング「APEX-Agents」でも首位を獲得しています。さらに3月にはコスト重視の軽量版「Gemini 3.1 Flash-Lite」をリリース。入力トークン単価$0.25/1Mという価格設定はClaude 4.5 Haiku($1.00/1M)の4分の1に相当し、コスト競争における本格参入を強く印象付けました。

エージェントAIでの存在感を強めるGoogle

Gemini 3.1 ProのAPEX-Agentsランキング首位獲得は、同モデルが単なるテキスト生成の性能向上にとどまらず、複雑なタスクを自律実行するエージェントとしての実力を証明した点で特筆に値します。Googleは同時に、前世代比2倍の推論性能向上を謳っており、特にコード生成・数学・多段階推論のタスクで顕著な改善が見られるとしています。

X(旧Twitter)ではFlash-Liteの価格設定に注目したコスト比較ツイートが多数拡散し、「Googleがコスパ競争に本気を出した」という評価が広まりました。Flash-Liteについては、従来比64%の速度向上も報告されており、大量トークン処理が必要なバッチ処理・RAG(検索拡張生成)パイプラインへの適用を検討する開発者の試験報告がHacker Newsに相次いで投稿されています。

ベンチマーク数値への懐疑的な目

一方、Redditのr/MachineLearningでは「前世代比2倍の推論性能」という主張の再現性を問う批判的な検証スレッドが立ち上がり、独自のベンチマーク結果が次々と共有されました。また、Morgan Stanleyレポートでも言及された「GDPValというOpenAI自作の評価指標は中立ではない」という批判と同様の文脈で、各社が自社モデルに有利な評価指標を前面に出す傾向への警戒感が高まっています。

Gemini 3.1 Proの登場は、AI業界の競争図式に変化をもたらしています。2025年まではAnthropicとOpenAIの二強とGoogleの追走という構図でしたが、エージェント能力とコスト効率の両面でGeminiが存在感を増したことで、三つ巴の争いがより本格化しそうです。Flash-Liteの超低価格は、コスト重視のスタートアップや大量APIコールを行うエンタープライズにとって、モデル選定の軸を変える可能性があります。

関連リンク