Model Releases Community 2026-04-06 Source →

AnthropicがClaude Sonnet 5をリリース、SWE-bench 92.4%で前世代から12ポイント向上・価格据え置き

AnthropicはAIモデル「Claude Sonnet 5」（モデル文字列：claude-sonnet-5-20260401）を2026年4月1日にリリースしました。ソフトウェアエンジニアリングの実力を測るSWE-bench Verifiedベンチマークで92.4%を達成し、前世代のClaude Opus 4.6（80.8%）から約12ポイントという大幅な向上を実現。料金は従来のSonnet 4.6と同じ入力100万トークンあたり3ドル・出力15ドルで据え置きとなっています。

コンピューター操作でも人間の専門家を超える

SWE-bench（Software Engineering Benchmark）Verifiedは、実際のGitHubイシューを解決する能力を評価する業界標準の指標で、自律的なソフトウェア開発エージェントの実力を測るうえで広く参照されています。Claude Sonnet 5の92.4%というスコアは、競合するGPT-5.4の57.7%を大幅に上回るものです。

コーディング以外の領域でも顕著な性能向上が見られます。コンピューター操作タスク（画面を見てマウス・キーボードを操って目標を達成するタスク）では88.3%を記録し、人間の専門家の平均スコア72.4%を上回りました。claude.aiのデフォルトモデルとしても採用されており、APIを通じても即日利用可能です。

エンジニアコミュニティで波紋、「訓練データ汚染」への懐疑も

X上では「コーディングAIが人間エンジニアを完全に超えた」「ソフトウェアエンジニアの仕事はどうなるのか」という議論が白熱し、エンジニアコミュニティで広く拡散しています。Hacker Newsでは「SWE-benchは訓練データ汚染が懸念されるが、92.4%は流石に無視できない数字」「Claude Codeとの組み合わせで実務に革命が起きそう」という実践的なコメントが上位を占めました。r/LocalLLaMAでは「これほどの性能向上で価格据え置きは競合他社へのプレッシャーになる」という評価と「ベンチマークと実用性は別物」という懐疑的な声が拮抗しています。

Anthropicはコーディング支援ツール「Claude Code」との統合も強化しており、Sonnet 5を組み合わせることでエンタープライズ開発現場での自律的なタスク実行が現実的な選択肢になりつつあります。

AnthropicがClaude Sonnet 5をリリース、SWE-bench 92.4%で前世代から12ポイント向上・価格据え置き

コンピューター操作でも人間の専門家を超える

エンジニアコミュニティで波紋、「訓練データ汚染」への懐疑も

関連リンク