Model Releases Community 2026-04-29 Source →

Anthropic、Claude Opus 4.7をリリースも長文脈ベンチマークが78%→32%に急落——「ステルス値上げ」批判も

Anthropicは4月16日にClaude Opus 4.7をリリースしましたが、リリース直後からコミュニティの大きな反発を招いています。長文書脈でのファクト検索能力を測るMRCR（Multi-document Retrieval and Comprehension Ranking）ベンチマークで、前バージョンのOpus 4.6が記録していた78.3%から32.2%へと46ポイントもの大幅下落が確認されました。256kトークンの短文脈評価でも91.9%から59.2%へ低下しており、Xlork Blogなどの独立レビューはこれを「実質的な性能退行」と断じています。

「ベンチマーク廃止」で説明する苦しい対応

Anthropicは批判に対し、「MRCRはディストラクター（妨害情報）の積み上げ方が実際の利用と乖離しており、よりよい指標であるGraphWalksへの移行を進めている」と説明しています。しかし多くのユーザーからは「廃止予定のベンチマークで退行しているという事実は変わらない」「GraphWalksで改善していると言うなら、なぜその数値を公開しないのか」と疑問の声が上がっています。

さらに批判に油を注いだのが、トークナイザの変更に伴う実質的なコスト増加の問題です。Hacker Newsでは「トークナイザ変更はステルス値上げ」というスレッドが上位を占め、最大35%のコスト上昇が起きているとする実測報告も複数寄せられています。r/ClaudeAIでは、Opus 4.7が「無害なコードをマルウェアと判断して拒否した」という実例報告が相次ぎ、Claude Codeとしての信頼性低下を懸念する声が広がっています。X上では「本当のアップグレードはMythosだがリリース未定——消費者への不誠実さが問題」という批判ツイートが拡散されました。

RAGパイプラインや長文書類処理への影響

ApiYi.comのレビューによると、100万トークンのコンテキストウィンドウで特定情報を検索するRAG（検索拡張生成）パイプラインや文書分析エージェントを運用している企業・開発者は、Opus 4.6からの移行前に自社データで必ず性能検証を行うことを強く推奨しています。Anthropic自身も、社内に現時点でOpus 4.7を超えると認めている「Mythos」モデルが存在しながらリリース時期を未定としており、段階的な製品戦略の透明性に関する問いかけが今後も続きそうです。

Anthropic、Claude Opus 4.7をリリースも長文脈ベンチマークが78%→32%に急落——「ステルス値上げ」批判も

「ベンチマーク廃止」で説明する苦しい対応

RAGパイプラインや長文書類処理への影響

関連リンク