OpenAIは2026年3月5日、最新のフラッグシップモデル「GPT-5.4」をリリースしました。同社が「プロフェッショナルワーク向けで最も高性能かつ効率的なフロンティアモデル」と位置づける本モデルは、100万トークンという巨大なコンテキストウィンドウを搭載し、ファクトエラーを従来比33%削減したことが大きな特徴です。
GPT-5.4は標準版に加え、推論特化型の「Thinking」版、高パフォーマンス向けの「Pro」版の3バリエーションで提供されます。ベンチマークでは、コンピュータ操作タスクを評価するOSWorld-VerifiedとWebArena Verifiedで過去最高スコアを記録し、知識労働タスクを測定するGDPvalテストでも83%という記録的なスコアを達成しました。OpenAIによると、個別の主張が誤りである確率はGPT-5.2と比較して33%低下し、回答全体にエラーを含む確率も18%減少したとのことです。
X上では「月次アップデートのペースが凄い。5.1から5.4まで半年で進化した」という驚きの声が上がっています。一方、Hacker Newsでは「Claude Opus 4.6と互角との評価だが、コーディングではClaudeが優位」との分析も見られます。実際、複数のベンチマーク比較によると、GPT-5.4が5カテゴリでリードする一方、プログラミングや推論といった実務的価値の高い領域ではClaude Opus 4.6が優位という結果も報告されています。
100万トークンのコンテキストウィンドウにより、長文のプレゼンテーション作成、財務モデル構築、法的分析といった複雑なタスクへの対応力が大幅に向上しました。AIエージェント開発において、GPT-5.4とClaude Opus 4.6のどちらを選択するかは、用途に応じた使い分けがより重要になってきそうです。
| - [Introducing GPT-5.4 | OpenAI](https://openai.com/index/introducing-gpt-5-4/) |
|---|---|
| - [OpenAI launches GPT-5.4 with Pro and Thinking versions | TechCrunch](https://techcrunch.com/2026/03/05/openai-launches-gpt-5-4-with-pro-and-thinking-versions/) |