Model Releases Community 2026-04-19 Source →

GPT-5.4がOSWorld-Verifiedで75.0%達成——前モデルGPT-5.2の47.3%から27ポイント向上、デスクトップ操作AIの実用化が急加速

OpenAIは新モデル「GPT-5.4」を発表し、コンピューター操作タスクを評価するベンチマーク「OSWorld-Verified」において75.0%のスコアを達成しました。前モデルGPT-5.2が記録した47.3%から27.7ポイントの大幅向上であり、人間がデスクトップ上で行う複雑な操作タスクをAIがこなせる能力が、急速に実用水準へ近づいていることを示しています。テキスト・画像・音声を単一モデルでネイティブに生成する統合アーキテクチャを採用しており、音声や画像の別途処理モジュールを廃したことが特徴です。

OpenAIの発表によると、GPT-5.4はテスト時の計算量（Test-time Compute）を積極的に活用する設計となっており、複雑なタスクほど推論ステップを自律的に増やすことで精度を高めます。OSWorld-Verifiedが評価するのは、ウェブブラウジング・ファイル管理・アプリケーション操作といった実際のデスクトップ業務に近いタスクで、75%という数値は「自動化に値するレベルの信頼性」に近いとも解釈されます。音声・画像・テキストをひとつのモデルで扱える統合アーキテクチャは、複合的なデスクトップ操作を単一エージェントで完結させるための基盤となります。

X上では「コンピューターを使えるAIエージェントの実用化が急速に近づいた」という高揚感が拡散しましたが、研究者の一部からはOSWorldのタスク設定自体を批判する声も上がりました。r/MachineLearningでは「OSWorld-Verifiedではトップがクロードマイソスの79.6%、次がHolo3の78.8%——GPT-5.4の75%は3位」という指摘が議論の焦点となり、OpenAIの単独トップという印象づけへの懐疑論も見られました。「4月だけで9つの主要モデルが6社からリリースされた前代未聞の状況」への驚きも共有されています。Hacker Newsでは「ホワイトカラーの仕事が代替される速度が想定より早まった」という議論が高評価を集め、「テスト時計算量の活用が競合優位の源泉」という技術分析も注目されました。

GPT-5.4の登場によって、AIがコンピューターを「使える」ようになる時代の到来がより明確になりました。デスクトップエージェントが実際の業務フローに組み込まれることで生じる変化——自動化できる作業の範囲、人間に残される仕事の性質——について、技術コミュニティだけでなく職場全体での議論が本格化しそうです。

GPT-5.4がOSWorld-Verifiedで75.0%達成——前モデルGPT-5.2の47.3%から27ポイント向上、デスクトップ操作AIの実用化が急加速

関連リンク