Model Releases Community 2026-04-03 Source →

GPT-5.4が人類専門家レベルを超えるGDPValベンチマーク83%を達成

OpenAIが「GPT-5.4 Thinking」モデルを発表し、経済的価値のあるタスクで人間の専門家レベル以上の性能を測定する新指標「GDPVal（GDP価値評価）ベンチマーク」で83.0%を達成しました。GPT-5.3 Codexのリリースから短期間でのポイントリリースであり、OpenAIがモデル改善のサイクルを急ピッチで回していることを示しています。

GDPValベンチマークとは何か

GDPVal（Gross Domestic Product Value）ベンチマークは、AIが現実の経済活動においてどれほどの価値を創出できるかを測定することを目的とした評価指標です。従来のベンチマーク（コーディング正確率、数学問題正答率など）が技術的能力の測定に特化していたのに対し、GDPValは実際のビジネスタスクや専門職業務において人間の専門家と比較した場合の達成率を測ります。

GPT-5.4 Thinkingが達成した83.0%という数字は、対象タスクの約83%において人間の専門家と同等以上の成果を上げたことを意味します。OpenAIはこれを「人類の専門家レベルを超えた」という文脈で発表していますが、X上ではGDPValという経済的指標を使ったベンチマークのアプローチ自体が議論の的になっています。「専門家レベルを超えた」という主張への懐疑論も根強く、「どの専門家と比較したのか」「タスクの選定に恣意性がないか」といった疑問が寄せられています。

ベンチマークと実体験の乖離

Hacker Newsでは「ベンチマークに最適化されたモデルが実際のタスクで使えるか」という議論が白熱しています。ベンチマーク上の数値が高くても、実際のユーザーが複雑なプロジェクトで使用した際に期待外れになるケースは珍しくなく、「GDPValスコアと実際の生産性向上は別物」という冷静な見方が多くの支持を集めています。

AIモデルの評価指標は、モデルの進化とともに刷新が繰り返されてきました。GDPValが業界標準として定着するかどうかはまだわかりませんが、「経済的価値」という視点でAIを評価しようとするアプローチ自体は今後の指標設計に影響を与えそうです。実際の業務で使ってみた際の体験談や独立した第三者評価が揃うまで、このベンチマーク結果は一つの参考データとして扱うのが賢明でしょう。