Model Releases Community 2026-04-09 Source →

GPT-5.4 ThinkingがOSWorldで75.0%——PC自律操作で人間（72.4%）を史上初めて超える

OpenAIが2026年3月5日にリリースしたGPT-5.4 Thinkingが、自律PCタスクのベンチマーク「OSWorld-Verified」で75.0%を達成しました。人間の専門家ベースライン72.4%を上回ったのは、汎用AIモデルとしては史上初めてのことです。Claude Opus 4.6も72.5〜72.7%で人間レベルに並んでいますが、GPT-5.4の2.5ポイントのリードは実運用自動化において意味のある差とされています。

「PCタスクで人間を超えた」節目の意味

OpenAI公式ブログによると、GPT-5.4 ThinkingはOSWorldスコア75.0%に加え、SWE-Bench Proで57.7点、知識労働ベンチマーク「GDPval」で83%を記録しており、コーディング・コンピュータ操作・知識タスクの3領域を単一モデルに統合した設計です。OSWorldは実際のOS環境でWebブラウジング・ファイル操作・スプレッドシート編集などを自律的に行うタスクを評価するベンチマークで、AIエージェントの実用性を測る指標として業界で広く参照されています。

エンタープライズ活用事例として注目されるのがBoxの報告です。Hacker Newsで話題となったように、Boxは社内の3万件のタスクにGPT-5.4を適用し、95%の初回成功率を達成したとしています。X（旧Twitter）ではAI研究者らが「PCタスクで人間を超えた初の汎用モデル」として歴史的節目と評価する一方、r/MachineLearningでは「OpenAIがClaude有利のSWE-Bench VerifiedをやめてSWE-Bench Proに乗り換えた点に疑問符」という批判的な見方も出ています。ベンチマーク選択の透明性への疑問は今後も続くとみられます。

自律エージェント時代の幕開け

75.0%というスコアは「人間を超えた」と表現されますが、残り25%は依然として失敗するタスクがあることを意味します。それでも、計画・実行・エラー回復を繰り返す長時間自律セッションの能力と合わせて考えると、知識労働の一部をAIエージェントへ委譲できる現実的な閾値が近づきつつあるサインといえます。GLM-5.1が8時間の自律コーディングを実現し、GPT-5.4がPCタスクで人間水準を超えた2026年は、エージェントAIの実用化元年として記憶される可能性があります。

GPT-5.4 ThinkingがOSWorldで75.0%——PC自律操作で人間（72.4%）を史上初めて超える

「PCタスクで人間を超えた」節目の意味

自律エージェント時代の幕開け

関連リンク