Model Releases Community 2026-04-02 Source →

OpenAI、GPT-5.4 ThinkingとProを正式リリース — OSWorldで人間専門家72.4%を超える75%を達成

OpenAIは2026年3月5日、新モデル「GPT-5.4」のThinkingおよびPro版を正式にリリースしました。同社によると、デスクトップ操作の総合ベンチマーク「OSWorld」において75%のスコアを達成し、人間の専門家による正解率72.4%を初めて上回ったとしています。APIはすでに提供が開始されており、入力トークン単価$2.50/1M、出力$20/1Mで利用できます。

複数のベンチマークで人間を超える水準に

GPT-5.4 Thinkingは、OSWorld以外でも複数の評価指標で注目すべき結果を示しています。OpenAIが経済的影響力を評価するために設計した指標「GDPVal」では83%を記録し、知識業務タスクにおいては人間のエキスパートと同水準に達したとされています。また、推論トークンを明示的に利用する「Thinking」版では、思考プロセスの透明性が高まっており、Chain-of-Thought（CoT）推論の可視化に関してもコミュニティから高い評価を受けています。

価格面では、Claude 4.5 Sonnetとほぼ同水準に設定されており、競合モデルとの実質的なパリティを意識した戦略がうかがえます。

「ベンチマーク競争より実タスク」という評価観の変化

Hacker Newsの開発者コミュニティでは、「フロンティアモデル間の性能差が2〜3%ポイント以内に収束しており、判断基準は価格とDX（開発者体験）に移行しつつある」という意見が多数を占めました。実際、各モデルのベンチマーク結果が接近するにつれ、「どのタスクにどのモデルを使うか」という組み合わせの最適化が、エンジニアリング上の重要課題になっています。

X（旧Twitter）では、UI生成品質について「フロントエンドのセンスが微妙」という批判も散見される一方、ToolSearchを活用したトークン削減機能については「コスト効率が大幅に改善された」と高く評価する開発者の声が多く見られました。また、AIコーディングアシスタントとしてClaude Codeとの直接競合を意識したコメントも相次いでいます。

安全性観点での独自評価

Redditのr/artificialでは、GPT-5.4 ThinkingのCoT透明性について安全性の観点から評価する意見が目立ちました。「思考プロセスが隠蔽されにくい設計である点が、モデルの整合性（アライメント）確認において重要」という指摘で、他社の推論モデルとの差別化点として注目されています。

AGIへの道筋が具体的に見えはじめてきた2026年。GPT-5.4の登場は、単なる性能更新にとどまらず、AIモデルの評価軸そのものが「ベンチマーク数値」から「実務での信頼性と価格競争力」へとシフトしている転換点を示す出来事といえるでしょう。

OpenAI、GPT-5.4 ThinkingとProを正式リリース — OSWorldで人間専門家72.4%を超える75%を達成

複数のベンチマークで人間を超える水準に

「ベンチマーク競争より実タスク」という評価観の変化

安全性観点での独自評価

関連リンク