Model Releases Official 2026-03-13 Source →

Anthropic Claude Sonnet 4.6が実務ベンチマーク「GDPval-AA」で1,633ポイントを記録、全モデル中トップに

Anthropicは2026年2月中旬にリリースしたClaude Sonnet 4.6が、実務作業の遂行能力を測定するベンチマーク「GDPval-AA」においてELOスコア1,633ポイントを記録し、同社のフラッグシップモデルOpus 4.6（1,606ポイント）を含む全モデル中でトップに立ちました。100万トークンコンテキストもベータ版として提供され、価格は据え置きとなっています。

GDPval-AAは、Artificial Analysisが開発した独立評価フレームワークで、9つの主要産業にまたがる44の職種から収集した220のタスクを用いて、経済的価値のある実務遂行能力をテストします。VentureBeatによると、Sonnet 4.6は前モデルSonnet 4.5に対して85%以上の予想勝率を達成。この結果を得るために、Sonnet 4.6はアダプティブシンキングモード使用時に前モデルの約4倍となる2億8,000万トークンを処理しています。

The Registerの報道では、Sonnet 4.6はコンピュータ操作タスクでも性能が向上しており、エージェント的なワークフロー処理において大きな進歩を見せています。価格はフラッグシップモデルの5分の1に抑えられており、企業導入を加速させる要因となっています。

X上では「実務タスクでのパフォーマンスに驚きの声」が多数寄せられ、Hacker Newsでは「コスト対性能比で最も優れている」との評価が目立ちます。特にオフィスワークや文書作成など、実際のビジネスシーンで頻繁に発生するタスクでの高い処理能力が注目されています。

Claude Sonnet 4.6の登場により、「最先端の能力を低コストで」という企業ニーズに応えるAIモデルの選択肢が広がりました。今後、実務ベンチマークを重視したモデル開発競争がさらに激化することが予想されます。

- [Claude Sonnet 4.6 System Card	Anthropic](https://anthropic.com/claude-sonnet-4-6-system-card)
- [Claude Sonnet 4.6 - New leader in GDPval-AA	Artificial Analysis](https://artificialanalysis.ai/articles/claude-sonnet-4-6-gdpval)
- [Anthropic's Sonnet 4.6 matches flagship AI performance at one-fifth the cost	VentureBeat](https://venturebeat.com/technology/anthropics-sonnet-4-6-matches-flagship-ai-performance-at-one-fifth-the-cost)

Anthropic Claude Sonnet 4.6が実務ベンチマーク「GDPval-AA」で1,633ポイントを記録、全モデル中トップに

関連リンク