Model Releases Community 2026-04-13 Source →

OpenAI GPT-5.4 Thinkingがデスクトップ操作ベンチマークOSWorldで75.0%達成—人間の72.4%を初めて上回る

OpenAIは3月5日にリリースした「GPT-5.4」の「Thinking（シンキング）」変種が、コンピュータ操作能力を測る業界標準ベンチマーク「OSWorld-Verified」で75.0%のスコアを達成し、人間の熟練者が同テストで記録した72.4%を初めて超えたと発表しました。前世代のGPT-5.2が47.3%だったことを踏まえると、わずか1世代で27.7ポイントという急激な改善です。

「考えながら動く」対話型推論が鍵

GPT-5.4 Thinkingの特徴は、ブラウザ操作やフォーム入力など実際のデスクトップタスクを実行する前に、「思考プロセス」をユーザーに表示・修正させる対話型推論機能にあります。OpenAIによると、これによりミス率が大幅に下がり、実際のユーザー環境でのタスク完遂率が向上したとのことです。モデルはChatGPT・Codex・APIの三つのルートから利用可能で、より高性能な「Pro」変種も同時提供されています。

OSWorld-Verifiedはコンテキスト入力から指定されたOSの画面上でアプリの起動・ウェブ検索・ファイル管理などの実際のタスクをどれだけ正確にこなせるかを評価します。The Next Webの報道では「GPT-5.4はプロフェッショナルベンチマークで新記録を次々と塗り替えた」と評されており、特にコーディング・文書作成・情報収集の組み合わせタスクでの精度が高いとされています。

しかしコミュニティの受け止め方は冷静です。Reddit・r/MachineLearningでは「OSWorldのスコアは印象的だが、実際のエージェント展開ではエッジケースで頻繁に失敗する。ベンチマーク成績が本番環境の信頼性を保証するわけではない」との声が上位を占めています。Hacker Newsでも「人間パフォーマンスを超えた」という表現について、「そのタスクに特化した訓練を受けていない人間と比較しているため公平性に疑問がある」との指摘が多く見られました。

X（旧Twitter）では「AIがあなたのPCをあなたより上手く操れる時代が来た」という投稿が広まり、「コンピュータエージェント」の実用化が現実味を帯びてきたことへの関心が急速に高まっています。

エージェントAIの実用化に向けた大きな一歩

Nerd Level Techの分析によれば、OSWorldでの人間超えはGPT-5.2との比較だけでなく、競合他社を含む全モデルの中でも初めての記録であり、AIエージェントの開発競争で一つの節目を示すものです。ただし実際の業務環境——セキュリティポリシー、複数アプリの連携、予期しないUIの変化など——でどこまで通用するかは別問題です。Robo Rhythmsの解説記事が指摘するように「ベンチマークは制御された環境での性能であり、実務展開にはまだ別のハードルがある」という見方が専門家の間では一般的です。それでも、デスクトップ操作AIが人間の平均を超えたという事実そのものは、エージェントAI開発の歴史に刻まれる1ページとなりました。

OpenAI GPT-5.4 Thinkingがデスクトップ操作ベンチマークOSWorldで75.0%達成—人間の72.4%を初めて上回る

「考えながら動く」対話型推論が鍵

エージェントAIの実用化に向けた大きな一歩

関連リンク