OpenAIは4月23日、エージェント型タスクに特化した新モデル「GPT-5.5」を正式リリースしました。コーディング性能の指標であるSWE-Bench Proで58.6%、ターミナル操作を評価するTerminal-Bench 2.0で82.7%を達成し、自律的なコーディング・コンピューター操作・深層リサーチの3領域で前世代モデルから大幅な性能向上を実現しています。
OpenAIによると、GPT-5.5はエージェントとしての「長期タスク実行力」を重点的に強化しており、単一のプロンプトへの応答精度よりも、複数ステップにわたる作業を自律的に完結させる能力の向上に注力したとのことです。NVIDIAのエンジニアがX上で「GPT-5.5へのアクセスを失うと手足をもがれた感覚」とコメントしたほか、あるゲノム研究者は「数か月かかっていた遺伝子配列の解析作業を数分で完了した」と報告しており、研究・エンジニアリングの現場での実用性の高さがうかがえます。
ユーザーコミュニティでの反応は総じて肯定的ですが、使い分けに関する議論も目立ちます。Redditでは「ほとんどのタスクはClaude派だが、自律性の高さはGPT-5.5が一歩上」との比較レビューが広く共有されており、モデルごとの強みを把握した上で選択するプロフェッショナルユーザーが増えていることがわかります。Hacker Newsでは「長タスクの実行力と指示追従の改善は明らか。ただし自律的に動きすぎて軌道修正が必要な場面もある」という実務的な指摘も多く、エージェントAIの「過度な自律性」という新たな課題も浮き彫りになっています。
GPT-5.5の登場は、単一のタスク処理能力よりも「どれだけ長い作業をどれだけ少ない監視で完遂できるか」という新たな競争軸をAI業界に定着させつつあります。同日、中国のMoonshot AIも同等スコアのオープンウェイトモデルをリリースしており、エージェント型AIの性能競争はより一層の加速が見込まれます。