Anthropicは2026年5月28日、最新の推論フラッグシップモデル「Claude Opus 4.8」をリリースしました。ソフトウェアエンジニアリングのベンチマークであるSWE-bench Verifiedで88.6%を記録し、AIによるコーディング能力の水準を大きく引き上げています。
主要ベンチマークでは、端末操作タスクを測定するTerminal-Bench 2.1で74.6%、ゲーム理論的な意思決定能力を測るGDPval-AAで1890 Eloを達成しています。注目すべきは並列サブエージェントワークフローへの対応で、複数のサブタスクを同時並行で処理する能力が強化されました。また2.5倍の高速モードも搭載しており、レスポンスが求められる本番環境での利用を想定した設計となっています。価格はOpus 4.7と同一の入力100万トークンあたり5ドル、出力25ドルに据え置かれており、コストを上げずに性能を向上させた点が評価されています。
開発者コミュニティではX上で「88.6%のSWE-bench Verifiedスコアは驚異的」「エージェント型ワークフローでの実用性が大幅向上した」という声が相次いでいます。Hacker Newsでも「価格据え置きでの性能向上は評価できる」「並列サブエージェント機能が本番ワークフローに与える影響を試したい」という実務目線のコメントが集まりました。一方r/LocalLLaMAでは「クローズドモデルとの差が広がる一方で、オープンウェイトのMiniMax M3が迫っている」という比較議論も活発化しており、クローズドとオープンの競争が一段と激しくなっていることを示しています。
AI開発の現場で「エージェント」利用が主流になりつつある今、複数のサブエージェントを効率的に協調させる能力は重要な差別化ポイントになっています。Claude Opus 4.8はその方向性を明確に打ち出したモデルといえ、今後の企業向け採用がどこまで広がるか注目されます。