Model Releases Official 2026-03-01 Source →

AnthropicがClaude Sonnet 4.6を発表、OSWorldで72.5%を達成し人間レベルのコンピュータ操作能力に到達

Anthropicは2月17日、新たなAIモデル「Claude Sonnet 4.6」をリリースしました。コンピュータ操作能力を測定するOSWorldベンチマークで72.5%を達成し、人間のベースライン性能（約72%）と機能的に同等のレベルに到達したことが注目を集めています。

OSWorldは、仮想デスクトップ環境でウェブブラウザやターミナル、LibreOfficeなどのデスクトップアプリケーションをマウスクリックとキーボード入力で操作する能力を評価するベンチマークです。AnthropicのSonnetシリーズは、2024年10月に初めてコンピュータ操作機能をリリースした時点ではSonnet 3.5が14.9%だったところから、2025年2月のSonnet 3.7で28.0%、6月のSonnet 4で42.2%、10月のSonnet 4.5で61.4%と着実に進歩を続け、今回72.5%に到達しました。わずか1年半足らずで5倍近い性能向上を実現したことになります。

Sonnet 4.6はコーディング能力と指示追従性も改善されており、100万トークンのコンテキストウィンドウ（ベータ版）を搭載しています。さらに、フラッグシップモデルに近い性能を5分の1の価格で提供するとAnthropicは述べています。X上では「コンピュータ操作能力の向上に驚いた」「自動化ワークフロー構築への期待が高まる」という声が上がっています。Redditのr/LocalLLaMAではAPIコストとローカル代替手段についての議論や、実務での使用感レポートが投稿されています。

初期ユーザーからは、複雑なスプレッドシートの操作や複数ステップのウェブフォーム入力、複数のブラウザタブにまたがるタスクで人間レベルの能力を発揮しているとの報告があり、エンタープライズでの採用加速が予想されます。

AnthropicがClaude Sonnet 4.6を発表、OSWorldで72.5%を達成し人間レベルのコンピュータ操作能力に到達

関連リンク