Model Releases Community 2026-04-01 Source →

GPT-5.4リリース、GDPValベンチマークで83.0%——人間専門家レベルの経済的タスクをAIがこなせる時代へ

OpenAIが3月、「GPT-5.4」をStandard・Thinking・Pro3の3バリアントで正式リリースしました。なかでもGPT-5.4 Thinkingは、経済的価値のあるタスクへの対応力を測る「GDPVal」ベンチマークで83.0%を記録し、実際の業務で人間の専門家と同等以上の成果を出せる水準に達したとOpenAIは述べています。

GDPValとは、現実の経済活動において価値を生み出す作業——法律文書の作成、財務分析、ソフトウェア開発、マーケティング戦略立案など——をどれだけ正確にこなせるかを評価するベンチマークです。OpenAIによると、GPT-5.4 Thinkingはこれらのタスク群で83.0%のスコアを達成しており、「実際の業務現場で人間の上位専門家と同等のアウトプットを出せる」と位置づけています。Standard・Pro3バリアントとの差別化ポイントは「長時間の思考プロセス」にあり、複雑な問題を段階的に分解して解くアプローチが精度向上に寄与しているとされます。

X（旧Twitter）では、ThinkingモードとProモードの使い分けについての実践的な議論が活発です。「コーディング用途ではGPT-5.3 Codexの方が優れている」という声もあり、ユースケース別の比較検証が盛んに行われています。Reddit（r/LocalLLaMa）ではGPT-5.4の能力を認めながらも「月額料金が高すぎる」という不満が目立ち、オープンソース代替を求める声が多数を占めています。Hacker NewsではGDPValベンチマーク自体の設計に対する批判的考察が上位に立っており、「『経済的価値のあるタスク』の定義が曖昧では、比較の意味が薄れる」という学術的な反論も展開されています。

人間専門家レベルの経済的タスクをAIがこなせると宣言されることの含意は大きく、ホワイトカラー職種の代替可能性についての議論を再燃させています。一方で、ベンチマーク上の数値がそのまま現場での生産性向上に直結するかどうかは別問題であり、実際の活用事例の積み上げが評価の鍵になるでしょう。GPT-5.4が業務現場にどう浸透していくか、今後数ヶ月の動向が注目されます。

GPT-5.4リリース、GDPValベンチマークで83.0%——人間専門家レベルの経済的タスクをAIがこなせる時代へ

関連リンク