Anthropicが2月3日にリリースしたClaude Sonnet 5(コードネーム「Fennec」)が、コーディングベンチマークの金字塔であるSWE-Bench Verifiedで82.1%を記録し、初めて80%の壁を突破した。これはAIコーディング能力において歴史的なマイルストーンとなる。
Claude Sonnet 5「Fennec」は、Anthropicが開発した最新のフラッグシップレベルの大規模言語モデルである。100万トークンのコンテキストウィンドウを搭載し、入力トークンあたり3ドルという価格設定で提供されている。
最も注目すべきは、SWE-Bench Verifiedで82.1%という驚異的なスコアを達成したことだ。このベンチマークは、AIが実際のGitHubイシューを解決できるかを測定するもので、82%という数値は、AIが単なる「コパイロット」ではなく、バグレポートを受け取り、自律的にパッチを作成・テスト・検証できるレベルに達したことを意味する。
技術的には、「蒸留推論(distilled reasoning)」アーキテクチャを採用しており、フラッグシップモデルのパワーを高効率な推論エンジンに圧縮している。これにより、Opus 4.5と比較して約80%のコスト削減を実現しながら、コーディングベンチマークで優れた性能を発揮する。
Vals AIなどの独立したテスト機関による検証も完了しており、本番環境での信頼性が保証されている。Google Geminiを凌駕し、「エージェント型」AIコーディングと自律的な開発者ワークフローにおいて新たな業界標準を確立した。