Model Releases Community 2026-03-18 Source →

OpenAI GPT-5.4がOSWorldベンチマークで75.0%を達成、人間の基準72.4%を史上初めて突破

OpenAIが3月5日にリリースしたGPT-5.4が、コンピュータ操作能力を測定するOSWorld-Verifiedベンチマークで75.0%のスコアを記録し、人間の基準値である72.4%を史上初めて上回りました。これはAIがデスクトップ環境でのタスク遂行において、人間と同等以上の能力を獲得したことを示す歴史的なマイルストーンとなります。

GPT-5.4は、前世代のGPT-5.2（47.3%）から約28ポイントもスコアを向上させています。この飛躍的な進歩を支えているのが、ネイティブなコンピュータ操作機能です。GPT-5.4はスクリーンショットを認識し、マウスやキーボードの操作コマンドを直接発行できるため、ソフトウェアとの対話が従来のAPIベースの連携よりも自然かつ柔軟になりました。また、100万トークンという長大なコンテキストウィンドウを備え、複雑なタスクの継続的な処理にも対応しています。

Sam Altman CEOはX（旧Twitter）で「お気に持ちのモデル」と投稿し、会話の質と人格面での改善を強調しました。一方、ユーザーの反応は二極化しており、Redditでは速度向上を称賛する声がある一方で「賢すぎて使いにくい」という指摘も見られます。Hacker Newsでは、丁寧な質問によるデータ漏洩の可能性といったセキュリティ脆弱性への懸念が議論されており、高度な能力がもたらすリスクへの警戒感も高まっています。

業務効率を測るGDPvalは70.9%から83.0%へ、ウェブリサーチ能力を測るBrowseCompは65.8%から82.7%へとそれぞれ大幅に向上しており、GPT-5.4がコンピュータ操作だけでなく、知識労働全般において新たな基準を打ち立てたことは明らかです。ChatGPT Plus、Team、Proユーザーはすでに利用可能で、APIとCodexでは100万トークンのコンテキストをフルに活用できます。AIによる業務自動化が本格化する2026年、GPT-5.4はその中核を担う存在となりそうです。

OpenAI GPT-5.4がOSWorldベンチマークで75.0%を達成、人間の基準72.4%を史上初めて突破

関連リンク