OpenAIは3月5日、同社の最新フラッグシップモデル「GPT-5.4」を発表しました。「プロフェッショナルワークのための最も高性能で効率的なフロンティアモデル」と位置づけられた本モデルは、API経由で最大100万トークンのコンテキストウィンドウを提供し、ネイティブのコンピュータ操作機能を初めて搭載しています。
GPT-5.4は3つのバリエーションで提供されます。標準版に加え、複雑な問題解決に特化した推論重視の「GPT-5.4 Thinking」、そして最大性能を発揮する「GPT-5.4 Pro」です。OpenAIによると、GPT-5.2と比較して個別の主張における誤り率が33%減少し、全体的な応答にエラーが含まれる確率も18%低下しました。また、同じ問題を解決する際に必要なトークン数が大幅に削減され、トークン効率も向上しています。
ベンチマーク面では、コンピュータ操作の評価指標であるOSWorld-VerifiedとWebArena Verifiedで記録的なスコアを達成。知識作業タスクを評価するOpenAI独自のGDPvalテストでも83%という高得点を記録しました。CEOのSam Altman氏はX(旧Twitter)で「最も会話を楽しめるモデル」と投稿し、コーディングと知識作業の両立を強調しています。一方、Hacker Newsでは「100万トークンコンテキストはAnthropicに追随した形」との指摘もあり、実用性への期待と懐疑が入り混じった反応が見られます。Redditでは先日廃止されたGPT-4oへの反発が続く中、5.4の性能向上には一定の評価が寄せられています。
今回のリリースにより、OpenAIはエージェンティックAI(自律型AI)の分野でAnthropicやGoogleとの競争をさらに激化させることになりそうです。特にコンピュータ操作機能は、AIが複数のアプリケーションをまたいで複雑なワークフローを実行できる可能性を示しており、企業向けAI活用の新たな扉を開くものと期待されています。