OpenAIが2026年3月5日にリリースしたGPT-5.4シリーズの全面展開が完了し、「Thinking」バリアントがOSWorld-Verified(デスクトップ操作の自動化能力を測る評価指標)で75.0%のスコアを記録、人間の平均スコアである72.4%を初めて上回りました。OpenAIの公式発表によると、GPT-5.4は前世代のGPT-5.2(スコア47.3%)から27.7ポイントという単一世代での大幅な向上を実現した初のモデルで、経済的に価値のある業務を評価するGDPValベンチマークでも83%を達成し、人間の専門家水準に到達しています。
DataCampなどの技術メディアによると、GPT-5.4はPlaywrightなどのライブラリを使ったコード記述によるコンピューター操作と、スクリーンショットに基づくマウス・キーボード操作の両方に優れています。コンテキストウィンドウは100万トークンに拡大され、ツール検索(Tool Search)機能も強化されています。なお、ベンチマーク評価にはreasoningをxhigh設定に指定したThinkingバリアントが使用されており、標準モデルとは性能差があることに注意が必要です。
Hacker Newsではデスクトップ自動化の人間超えに注目が集まる一方、「OSWorldのスコアが実際の業務効率向上に直接つながるのか」という懐疑的な意見も上位に並んでいます。Redditのr/ChatGPTでは、ベンチマーク上の高評価とは裏腹に「回答が短くなった」「コーディング補助の質が下がった」という実際の使用感への不満が依然多く、「ベンチマークは高くても体感的な実用性が下がった」という声が多数集まりました。
デスクトップ操作の人間超えは、AIエージェントが単なる質問応答ツールから「実際にPCを操作して業務を遂行するアシスタント」へと進化する象徴的な出来事です。RPAや業務自動化ツール市場への影響が注目される中、次の焦点は「ベンチマークの高スコアをどれだけ実際のビジネス現場で再現できるか」に移っていくでしょう。