Model Releases Community 2026-04-10 Source →

GPT-5.4 ThinkingがOSWorld-Verifiedで75.0%を達成——人間の72.4%を初めて超え、デスクトップ自律操作でAIが人間レベル越え

OpenAIは2026年3月5日にリリースしたGPT-5.4のThinkingバリアントが、デスクトップ自律操作のベンチマーク「OSWorld-Verified」で75.0%というスコアを記録し、人間専門家の基準値72.4%を初めて上回りました。OSWorldはWindowsやmacOSの画面を視覚的に認識しながら、ボタンのクリック・フォーム入力・ファイルシステムの操作・Webブラウジングなど実際のデスクトップ業務を自律的に遂行できるかを評価するベンチマークで、NxCodeによればGPT-5.4はこれまでこのスコアに到達した唯一のAIです。

AI Havenの報告によると、GPT-5.4の5つのバリアント（Standard・Thinking・Pro・Mini・Nano）のうち、今回75.0%を達成したのはテスト時間計算（test-time compute）と推論ステップを統合したThinkingバリアントです。APIプランはStandardが入力$2.50/出力$15.00（1MTokあたり）で、Thinkingはインタラクティブな推論を含む中間的な価格帯となっています。コーディング評価SWE-Benchでも71.7%を記録しており、デスクトップ操作とコーディングの両軸で業界最高水準に位置しています。

X上では「PCの画面を見て操作できるAIが人間レベル超え。コンピュータ使用エージェントの普及が現実になった」と衝撃的な受け止め方が広がっています。r/artificialではOSWorldのタスク設計が本当に汎用性を評価できているのかというベンチマーク信頼性を問う議論が活発で、「テストセット外のタスクでも通用するのか？」という問いかけが多数見られます。Hacker Newsでは「これが本当なら大量の事務職が自動化される」という雇用影響の議論と「実際のエラー率を見ないと意味がない」という技術的懐疑論が拮抗して上位に並んでいます。

人間の操作と同等以上のデスクトップ自律エージェントが現実になったとすれば、RPA（ロボティックプロセスオートメーション）や事務自動化の市場は根本から塗り替えられる可能性があります。ベンチマーク外の実環境でどこまで通用するか——実用化への道のりが問われるのはここからです。

GPT-5.4 ThinkingがOSWorld-Verifiedで75.0%を達成——人間の72.4%を初めて超え、デスクトップ自律操作でAIが人間レベル越え

関連リンク