Model Releases Community 2026-06-05 Source →

GPT-5.5リリース：SWE-bench Pro 58.6%・Terminal-Bench 82.7%を達成、リリース直後にMiniMax M3に追い抜かれる

OpenAIが2026年5月5日にGPT-5.5をリリースしました。Terminal-Bench 2.0で82.7%、SWE-bench Proで58.6%、GDPvalで84.9%を記録し、長期エージェント実行・コンピュータ使用能力・トークン効率の大幅な改善が図られています。ChatGPTとCodexへのロールアウトと並行して進められており、APIアクセスは追加の安全対策のため一部ユーザーで遅延が生じました。しかしリリースから間もなく、中国のMiniMax M3がSWE-bench Proで59.0%を記録し、わずか1ヶ月足らずで首位の座を明け渡す展開となりました。

OpenAIによると、GPT-5.5は「step-functionアップグレード」と位置付けており、単純な質問応答から複雑なエージェント型ワークフローまで、より人間らしい応答と自律的な判断能力が向上しています。ただし、その自律性の高さが諸刃の剣となっており、適切な指示設計なしに動かすと「脱線しやすい」という指摘もRedditで相次ぎました。コーディング支援ツール「Codex」との統合強化も注目点の一つで、大規模コードベースでのリファクタリングや修正作業における実用性が向上したとされています。

Hacker Newsでは「DeepSeek-V4 Previewがオープンソース代替として即座に比較対象となった」という声が上がり、「GPT-5.5は量より質の改善を目指している印象」という分析が好評を集めました。X上では「MiniMax M3がオープンウェイトで肩を並べてきた」という競争の激化を指摘するコメントが多数拡散し、クローズドモデルの優位性が以前ほど自明でなくなってきた現状が浮き彫りになっています。

GPT-5.5のリリースは、AIモデル競争がいよいよ「性能水準の同質化」フェーズに入りつつあることを示唆しています。ベンチマーク上の差が縮まる中で、価格・APIの使いやすさ・安全対策の透明性などが差別化軸として浮上してくるでしょう。OpenAIがAPIアクセスの段階的解放に慎重な姿勢を見せていることは、安全性への配慮と市場投入速度のジレンマを抱えていることを示しています。

GPT-5.5リリース：SWE-bench Pro 58.6%・Terminal-Bench 82.7%を達成、リリース直後にMiniMax M3に追い抜かれる

関連リンク