← 2026-06-10
Model Releases Community 2026-06-10 Source →

Claude Opus 4.8がArtificial Analysis Intelligence Indexで首位——SWE-bench Verified 88.6%、最大1000サブエージェント並列で大規模コード移行が現実に

Anthropicが2026年5月28日にリリースしたClaude Opus 4.8が、独立評価機関Artificial AnalysisのIntelligence IndexでEloスコア1890(インデックス値61.4)を記録し、首位の座を獲得したことが明らかになりました。ソフトウェアエンジニアリングの実力を測る業界標準ベンチマーク「SWE-bench Verified」では88.6%を達成しており、前バージョンのOpus 4.7(87.6%)やGemini 3.1 Pro(80.6%)を上回っています。さらに難易度の高い「SWE-bench Pro」でも69.2%を記録し、GPT-5.5(58.6%)やGemini 3.1 Pro(54.2%)に対して約10ポイント以上のリードを保っています。

Artificial Analysisの独立検証によると、Opus 4.8のインデックス値は前バージョン比で4.1ポイント上昇しており、コーディングだけでなくエージェント型タスク全般での性能向上が確認されています。今回のリリースで特に注目されるのが「Dynamic Workflows」機能で、Claude Codeが最大1,000のサブエージェントを並列で制御し、数十万行規模のコードベース全体の一括マイグレーションを自動化できます。価格は入力100万トークンあたり5ドル・出力25ドルと据え置きで、性能向上がコスト増を伴わない点も評価されています。

X上では「SWE-bench 88.6%という数字はソフトウェアエンジニアの仕事の大半をAIが担える水準に近づいた」という議論が起点となり、エンジニア界隈で賛否両論の大きな議論が巻き起こっています。r/MachineLearningでは「AnthropicがOpenAIに対して本格的な技術的優位を主張し始めた」という見方が主流になりつつあるとされています。Hacker Newsでは「ベンチマーク首位は短命」という懐疑論と、「エージェント型タスクでの実用性能が初めて実務レベルに達した可能性がある」という期待論が拮抗していて、次のモデルサイクルへの関心が早くも高まっています。

SWE-benchのスコアが90%に迫る水準は、AIが実際の開発業務に対してどこまで有用かを計る上での重要なマイルストーンと言えます。Dynamic Workflowsによる大規模並列エージェントが商用環境でどれほど実績を積み上げるかが、次の評価軸になるでしょう。

関連リンク