Model Releases Community 2026-03-11 Source →

Claude Sonnet 4.6、エージェント性能ベンチマークGDPval-AAで首位に - ELO 1633でOpus超え、ただしトークン消費は4倍増

Anthropicの中位モデル「Claude Sonnet 4.6」が、実世界の知識ワークタスクを評価するGDPval-AAベンチマークでELO 1633を達成し、同社のフラッグシップモデルOpus 4.6やGoogleのGemini 3.1 Proを上回りました。リリースから2週間足らずでの首位獲得となります。

オフィス業務と金融分析で圧倒的な強さ

Artificial Analysisの事前リリーステストによると、Sonnet 4.6が特に強みを発揮したのはオフィス生産性タスク（GDPval-AAで1633 ELO）、金融分析（Finance Agentで63.3%）、そして大規模ツール使用（MCP-Atlasで61.3%）の3カテゴリです。いずれもOpus 4.6を含む全モデルを上回る成績で、Sonnet 4.5との比較では勝率85%以上という大幅な性能向上を示しています。

この結果は「Sonnet価格でOpus性能」という評価につながり、X上では企業導入を加速させる可能性が指摘されています。VentureBeatによれば、Sonnet 4.6はフラッグシップAIの性能を5分の1のコストで実現しており、エンタープライズ採用の加速要因になると分析されています。

コスト効率には注意が必要

ただし、性能向上にはトレードオフがあります。Sonnet 4.6はAdaptive Thinking（適応的思考）モードを使用した場合、前世代のSonnet 4.5（Extended Thinking使用時の5800万トークン）と比較して2億8000万トークンと、4倍以上のトークンを消費します。同等設定のOpus 4.6は1億6000万トークンで、Sonnet 4.6より約40%少ない消費量です。

Hacker NewsではGPT-5.4とのコスト比較が活発に行われており、「用途によって使い分けが必要」との声が上がっています。単純なタスクではOpus 4.6、複雑なエージェントタスクではSonnet 4.6という使い分けが推奨される傾向にあります。

AnthropicはSonnet 4.6を「中価格帯モデルがフラッグシップを繰り返し恥じらせる」存在として位置付けており、今後のモデル戦略においても中位モデルの強化を継続する方針とみられます。

- [Claude Sonnet 4.6 - New leader in GDPval-AA	Artificial Analysis](https://artificialanalysis.ai/articles/claude-sonnet-4-6-gdpval)
- [Anthropic's Sonnet 4.6 matches flagship AI performance at one-fifth the cost	VentureBeat](https://venturebeat.com/technology/anthropics-sonnet-4-6-matches-flagship-ai-performance-at-one-fifth-the-cost)
- [Claude Sonnet 4.6: Features, Access, Tests, and Benchmarks	DataCamp](https://www.datacamp.com/blog/claude-sonnet-4-6)

Claude Sonnet 4.6、エージェント性能ベンチマークGDPval-AAで首位に - ELO 1633でOpus超え、ただしトークン消費は4倍増

オフィス業務と金融分析で圧倒的な強さ

コスト効率には注意が必要

関連リンク