Model Releases Community 2026-03-20 Source →

OpenAI、GPT-5.4を正式リリース — 100万トークンコンテキストとネイティブPC操作機能を搭載、GDPValで83%達成

OpenAIは3月5日、同社の最新フラッグシップモデル「GPT-5.4」を正式にリリースしました。標準版に加え、高性能版の「GPT-5.4 Pro」と推論特化型の「GPT-5.4 Thinking」を同時展開し、知識労働タスクを測定するGDPValベンチマークで83%のスコアを記録しています。

今回のリリースで最も注目すべき点は、API版で最大100万トークンという史上最大のコンテキストウィンドウが利用可能になったことです。さらにGPT-5.4は、前バージョンと比較して同じ問題を大幅に少ないトークン数で解決できるようになり、トークン効率が向上しています。事実確認の精度も改善され、ユーザーが事実誤認をフラグ付けした匿名化プロンプトのセットにおいて、個々の主張が誤りである確率がGPT-5.2と比較して33%低下し、回答全体にエラーが含まれる確率も18%減少しました。

また、CodexおよびAPI経由で利用できるネイティブのコンピューター操作機能は、AIエージェントがアプリケーションをまたいで複雑なワークフローを自律的に実行することを可能にします。コンピューター操作ベンチマークのOSWorld-VerifiedおよびWebArena Verifiedで過去最高スコアを達成しています。開発者向けには、多数のツールを持つシステムで必要に応じてツール定義を検索する「Tool Search」という新システムも導入され、リクエストの高速化とコスト削減が実現しました。

Cursorのリー・ロビンソンVPはX上で「内部ベンチマークでトップ」「より自然で積極的にタスクを並列化する」と評価しています。一方で、コーディングベンチマーク（SWE-Bench）ではClaude Opus 4.6やGemini 3.1 Proに大差で負けている（57.7%対80%超）との分析もRedditで共有されており、Hacker Newsでは分析能力は強力だが常識的推論では意外と基本的なシナリオでつまずくとの指摘も上がっています。

GPT-5.4は「初のメインライン推論モデル」として位置づけられており、今後のAIアシスタント市場における競争がさらに激化することが予想されます。

OpenAI、GPT-5.4を正式リリース — 100万トークンコンテキストとネイティブPC操作機能を搭載、GDPValで83%達成

関連リンク