OpenAIは2026年3月5日にフラッグシップモデル「GPT-5.4」を発表しました。米国GDPに貢献する上位9産業・44職種の知識労働タスクを評価するベンチマーク「GDPVal」で83.0%を達成し、前世代のGPT-5.2(70.9%)から13ポイントの向上を記録。「AIが知識労働の専門家レベルに到達した」とOpenAIは位置づけており、コンピューター操作機能をメインラインモデルに初めて統合した点も大きな特徴です。
GDPValは「Gross Domestic Product Value」の略で、営業プレゼンテーション、会計スプレッドシート、救急搬送スケジュール、製造図面、短編動画制作など、実際の業務で発生するアウトプットの品質を業種横断的に評価する指標です。従来のコーディングベンチマーク(SWE-benchなど)がソフトウェア開発に特化していたのに対し、GDPValはホワイトカラー職全般の代替可能性を測ることを意図しており、経済的インパクトを直接的に示す指標として注目を集めています。
GPT-5.4はSWE-bench Pro(コーディング評価)でも57.7%を記録し、OSWorld(コンピューター操作)でも75%という高スコアを達成。APIの価格は入力100万トークンあたり2.50ドル・出力15ドルに設定されています。
X上では「AGIの定義によってはすでに達成済みでは」という議論が活発化し、AI安全研究者からは「このペースで進歩すれば2年以内に全職種で超人級に達する」という警鐘も発信されています。Hacker Newsでは「GDPValの44職種が何を基準に選ばれたかが重要。創造的・対人スキルは含まれているか」という批判的な検討がスレッドの多くを占め、指標設計への懐疑的な声も上がっています。r/Futurologistでは「AIが専門家を超えているならホワイトカラーの大量失業は秒読み」という不安の投稿が注目を集める一方、「AIはあくまでツールであり人間の補助」という反論も多数見られます。
GPT-5.4の登場により、AIモデルの評価軸がコーディングスコアから経済的価値・職業代替可能性へとシフトしつつあります。この流れはAI政策・労働市場の議論にも直結しており、今後の動向が注目されます。