Model Releases Community 2026-06-15 Source →

OpenAI GPT-5.4 Thinking、経済的タスクベンチ「GDPVal」で83%達成——人間専門家レベルに到達も指示追従の一貫性に課題

OpenAIの最新推論モデル「GPT-5.4 Thinking」が、経済的価値のあるタスクを測定するベンチマーク「GDPVal」において83%のスコアを達成し、人間専門家レベルに到達したとの評価を受けています。幻覚率の低さが実務利用者から高く評価される一方、指示追従の一貫性に問題があるという指摘も続いており、業務への全面的な展開には慎重さが求められます。

「経済的価値」で測る新しいAI評価軸

GDPValは従来のコーディングや数学パズルといったベンチマークとは一線を画し、実際の業務で生まれる経済的価値に近いタスクでモデルを評価するという設計思想を持ちます。法律文書のレビュー、財務分析、コンサルティングレポートの作成といったタスクが含まれるとされており、「AIが実際に人間の仕事を代替できるか」をより直接的に問う指標として注目されています。GPT-5.4 Thinkingが83%を記録したことは、少なくともベンチマーク設計の範囲内では人間専門家との競合が現実になりつつあることを示しています。

X上では「GDPVal 83%は衝撃的。AIが経済的価値のあるタスクで人間専門家を超えるという分水嶺」という受け止めが広がっています。一方でHacker Newsでは「ベンチマーク手法への疑問も。『経済的価値のあるタスク』の定義が重要」という根本的な問いも提起されており、数字の解釈には留保が必要です。Redditのr/MachineLearningでは「幻覚率低下は本物。ただし指示追従の一貫性問題は実務利用で依然課題」と実用面での限界を指摘する声が多く見られます。

今後AIが「経済的価値」をどれだけ生み出せるかという観点での評価軸は、企業のAI投資判断においても重要性を増していくとみられます。GPT-5.4 Thinkingの登場は、AIと人間の役割分担を再考するきっかけを提供していますが、現時点では一貫性の問題により「スーパーバイズド（監督下）での活用」が現実的なアプローチとなりそうです。

OpenAI GPT-5.4 Thinking、経済的タスクベンチ「GDPVal」で83%達成——人間専門家レベルに到達も指示追従の一貫性に課題

「経済的価値」で測る新しいAI評価軸

関連リンク