Anthropicは2月5日、最新フラッグシップモデル「Claude Opus 4.6」をリリースしました。100万トークンのコンテキストウィンドウ(ベータ版)を搭載し、HumanEval+で95%、SWE-Bench Verifiedで80.8%という商用モデル最高のコーディング性能を達成しています。
Opus 4.6の最大の特徴は「Adaptive Thinking(適応的思考)」機能です。クエリの複雑さに応じて推論の深さを動的にスケールする仕組みで、単純な質問には素早く、複雑な問題には深く考えて回答します。エージェント型コーディングの指標でも、Terminal-Bench 2.0で65.4%、OSWorld(エージェント型コンピュータ操作)で72.7%を記録しました。前モデルと比較して、より慎重に計画を立て、長時間のエージェントタスクを維持し、大規模コードベースでの信頼性が向上したとされています。
一方で、ユーザーからは品質低下を指摘する声も上がっています。Redditのr/ClaudeCodeでは「lobotomized(ロボトミー化された)」「nerfed(弱体化された)」との投稿が167アップを獲得し、コーディング性能は向上したものの文章力が低下したとの評価が見られます。Hacker Newsでは「本番利用でエラー頻発」「信頼性低下でビジネス利用が困難に」との警告も出ています。X上では「コーディングなら4.6、ライティングなら4.5を使い分けるべき」というアドバイスが多数共有されています。
AIモデルの進化において、特定の能力を強化すると他の能力が犠牲になる「トレードオフ」の問題が改めて浮き彫りになりました。Anthropicがこのフィードバックにどう対応するか、今後のアップデートが注目されます。
| - [Introducing Claude Opus 4.6 | Anthropic](https://www.anthropic.com/news/claude-opus-4-6) |
|---|