OpenAIは最新モデル「GPT-5.5」を正式にリリースしました。標準・Thinking・Proの3バリアント構成で、ソフトウェアエンジニアリングベンチマーク「SWE-bench Verified」で88.7%、ターミナル操作の自律実行を評価する「Terminal-Bench 2.0」で82.7%を記録しています。前世代モデルと比較してAIが事実とは異なる情報を生成する「幻覚(ハルシネーション)」を60%削減したことも大きな特徴です。
r/MachineLearningでは「コードネームSpudとして期待されていたモデル。幻覚削減が実務で効いてくる」という評価が寄せられています。SWE-bench 88.7%という数字はGitHubのような実際の開発リポジトリからのバグ修正タスクを自律解決できる割合を示しており、AIエージェントが本格的な開発業務を担えるレベルに近づいていることを示しています。
X上では「GPT-6じゃなかったのはちょっと肩透かしだけど、SWE-bench 88.7%はエージェント実用レベルに近づいた」という反応が目立ちました。Hacker Newsではモデル性能への評価が分かれる一方で「Pro版の価格設定が高すぎる」という批判と「それでも使う価値がある」とする擁護派が真っ二つに割れており、エンタープライズ向けの価格設計への不満が根強いことも浮き彫りになっています。
幻覚の大幅削減は、法律・医療・金融など誤情報のリスクが致命的な分野でのAI活用を後押しする可能性があります。エージェント機能の強化とあわせて、これまでパイロットに留まっていた企業導入が実運用フェーズへ移行するきっかけになりそうです。DeepSeekやAnthropicとの競争が激化するなか、OpenAIがコーディング・推論の両面で先行する形となりました。