OpenAIは4月23日、「GPT-5.5」を正式リリースしました。GPT-5.4からわずか6週間での後継モデル投入で、SWE-bench Verifiedで88.7%、MMLUで92.4%を達成し、前世代比で幻覚(ハルシネーション)を60%削減したとOpenAIは発表しています。モデルは「GPT-5.5(標準)」「GPT-5.5 Thinking(拡張推論)」「GPT-5.5 Pro(最高精度)」の3バリアントで構成され、APIはPlus・Proユーザー向けに4月24日から提供開始されています。開発コードネーム「Spud」はリリース前にジャガイモの絵文字を使ったティーザー投稿に由来します。
OpenAIが主張する幻覚60%削減という数値に対しては、独立機関の評価で疑問符が付いています。TokenMix Blogによると、Artificial Analysisの「AA-Omniscience」ベンチマークではGPT-5.5の幻覚率は86%と高止まりしており、Claude Opus 4.7の36%、Gemini 3.1 Pro Previewの50%と比べて大きく見劣りします。さらにTom's Guideが実施した7カテゴリ比較テストでは、GPT-5.5はClaude Opus 4.7に全カテゴリで敗れたと報告されており、OpenAIが主張するリーダーシップへの疑問がさらに深まりました。
X上では「また"GPT-5.x"か」「Claudeに全カテゴリで負けたというのはOpenAIのリーダーシップが揺らいでいる証拠」という失望の声が多数上がり、「GPT-6はいつ出るのか」という待望論も再燃しました。r/ChatGPTでは「幻覚が60%減というのは本当か?」という検証スレッドが多くの支持を集め、速度の速さを評価しながらも品質面に疑問符をつける声が目立ちました。Hacker Newsでは「GPT-5.5が無料ティアなしのPlus・Pro限定」という点が批判され、「OpenAIはプレミアム層に戦略を絞り込んでいる」という議論に発展しています。
SWE-bench 88.7%というスコアはGitHubの実際のIssueを解決する能力を測るもので、OpenAIは「シニアエンジニアの生産性に匹敵する」と説明しています。一方でDeepSeek V4-ProのSWE-bench 80.6%がそのわずか数分の1のコストで達成されていることを考えると、コーディング用途においてGPT-5.5の割高感は否めません。急加速するモデルリリース競争の中で、OpenAIが品質・価格・透明性のいずれの面でも競合優位を維持できるかが問われる局面が続きます。