AnthropicはClaude Opus 4.8をリリースし、Artificial Analysis Intelligenceインデックスで61.4点を記録してGPT-5.5を上回り、BenchLMリーダーボードで首位を獲得しました。Claude API・Amazon Bedrock・Google Vertex AIのいずれでも100万トークンのコンテキストウィンドウをデフォルトサポートするほか、拡張思考(Extended Thinking)機能も備えています。価格は入力100万トークンあたり15ドルで提供されています。
Opus 4.8はコーディング、数学的推論、長文処理での改善を中心に性能を向上させており、Anthropicによると「前バージョン比で特にマルチステップの問題解決タスクで顕著な改善が見られる」としています。100万トークンコンテキストのデフォルト対応は、長大なコードベース解析や書類処理において実務上大きな意味を持ちます。
X上ではエンジニアのTheo Browne氏がTypeScript中心の開発環境で「控えめだが実感できる改善」と評価した一方、「他モデルとの比較では依然として曖昧」との声も聞かれました。Redditでは、Opus 4.6・4.7・4.8と続くマイナーバージョンアップの連続に「ベンチマーク疲れ」を感じるとの声が多く、日常的なコーディング作業での体感的な改善はわかりにくいというコメントが相次いでいます。Hacker Newsでは「現在のコーディングベンチマークが、不明確な要件やリポジトリ固有の慣習・不安定なテストなど、実際の開発の困難を捉えていない」という根本的な批判が活発に議論されました。
ベンチマーク首位というニュースが続く中、実際のエンジニアリング現場での体感改善をどう測るかという問いは未解決のままです。Fable 5が停止された現状では、Opus 4.8がAnthropicの実質的なフラッグシップとして当面機能することになります。