Anthropicは4月16日、最新フラッグシップモデル「Claude Opus 4.7」をリリースしました。ソフトウェアエンジニアリング能力を測る業界標準ベンチマーク「SWE-bench Pro」において64.3%のスコアを記録し、GPT-5.4(57.7%)およびGemini 3.1 Pro(54.2%)を上回って、公開最強の汎用大規模言語モデル(LLM)の座を僅差で奪還した形となります。
Opus 4.7は前バージョン4.6(SWE-bench Pro 53.4%)から約11ポイントの性能向上を実現しており、主な新機能として100万トークンのコンテキストウィンドウ、前世代比3.3倍の高解像度ビジョン処理、そして新設された「xhigh」推論レベルが挙げられます。Anthropicによれば、評価対象となった主要ベンチマーク14項目のうち12項目で改善が確認されており、楽天は同社の本番タスク解決件数が3倍に向上したと報告しています。
X上ではCursor CEOが「CursorBenchにおいてOpus 4.7は70%、4.6は58%」と報告し高く評価した一方、実際に使用したエンジニアからは「実務では4.6より劣化している感覚がある」「トークナイザーの変更により実質的なコストが増加した」という批判的な声も多数上がっています。Hacker Newsでは「ベンチマーク競争より実際のエージェントタスク成功率を見るべき」というコメントが多くのポイントを獲得し、r/MachineLearningでは長文コンテキスト処理タスク(MRCR)での性能退化が実用上の懸念として取り上げられました。xhighレベルの価格設定への不満も一部から上がっています。
SWE-benchでの数値向上は確かに目を引きますが、実際のエンジニアリング現場での体感と乖離が指摘されているのも事実です。ベンチマークの上位争いが激化する中、今後はユーザーの実務における満足度と、ラボ環境での評価スコアの差をどう埋めていくかが各社の競争力を左右するポイントになりそうです。