Anthropicは2月17日、中価格帯AIモデル「Claude Sonnet 4.6」をリリースしました。コーディング能力を測定するSWE-bench Verifiedで79.6%を達成し、前バージョンのSonnet 4.5(77.2%)から2.4ポイント改善。最上位モデルOpus 4.6との性能差はわずか1.2ポイントにまで縮まり、価格は入力3ドル/出力15ドル(100万トークンあたり)とOpusの約1/5で提供されています。
今回のアップデートで注目すべきは、Sonnetクラスとして初めて100万トークンのコンテキストウィンドウ(ベータ版)をサポートした点です。これにより、大規模なコードベース全体を1回のプロンプトで分析することが可能になりました。Claude Codeを使った開発者テストでは、70%のユーザーがSonnet 4.5よりSonnet 4.6を好み、59%が前世代のフラッグシップモデルOpus 4.5よりもSonnet 4.6を選好したとのことです。X(旧Twitter)では「Claudeが今一歩リードしている」という開発者の評価が多く見られます。
一方で、RedditやHacker Newsでは厳しい批判も噴出しています。r/ClaudeCodeでは「Opus 4.6 lobotomized(脳みそを抜かれた)」というタイトルの投稿が167の賛同を集め、Anthropicサブレディットでも「Opus 4.6 nerfed(弱体化された)?」という疑問を呈する投稿が81の賛同を獲得しました。批判の焦点は文章品質の低下で、「コーディング向上と文章品質低下のトレードオフがある」との指摘が相次いでいます。コミュニティの間では「コーディングには4.6、文章作成には4.5」という使い分けがコンセンサスになりつつあるようです。
ベンチマークスコアの向上とユーザー体験の乖離は、AIモデル評価の難しさを示しています。今後のアップデートで文章品質の改善がなされるか、注目が集まります。
| - [Introducing Claude Sonnet 4.6 | Anthropic](https://www.anthropic.com/news/claude-sonnet-4-6) |
|---|---|
| - [Claude Sonnet 4.6: Complete Guide to Benchmarks, Features, and Pricing | NxCode](https://www.nxcode.io/resources/news/claude-sonnet-4-6-complete-guide-benchmarks-pricing-2026) |
| - [Claude Sonnet 4.6 Review | Medium](https://medium.com/@leucopsis/claude-sonnet-4-6-review-e01cc9d31273) |