Model Releases Community 2026-04-08 Source →

Claude Opus 4.6がLMSYS Chatbot Arenaで首位獲得——100万トークンコンテキスト・SWE-bench 65.3%で商用最高水準

AnthropicのClaude Opus 4.6が2月5日のリリース後、LMSYS Chatbot Arenaのランキングでトップに立ちました。人間による盲目的な選好評価を集計するChatbot Arenaは、ベンチマーク数値に依存しない「実際の使い勝手」を反映する指標として広く参照されており、GPT-5.4とGemini 3.1 Proを上回ったことで注目を集めています。

コーディング能力の面では、SWE-bench Verified 65.3%を達成し商用モデルとして最高水準に位置します。コンテキストウィンドウは100万トークンで、数十万行規模のコードベースや長大なドキュメントをそのまま入力できる実用性を持ちます。Redditのr/ClaudeAIでは「長文コンテキスト処理の実例が多数共有され、1Mトークンウィンドウの実用性が実証されている」と報告されており、巨大なコードリポジトリを丸ごと読ませて質問するユースケースが実際に機能することが各所で確認されています。

一方で価格設定は入力100万トークン当たり15ドル・出力75ドルと業界最高水準で、X上では「コーディング能力の高さへの称賛が多い一方、入力$15/出力$75（百万トークン）の価格設定を高いと感じる開発者の声も」上がっています。SWE-bench 80.6%を記録したGemini 3.1 ProとAPI価格を比較しながらどちらを選ぶかという議論は、今後の開発者コミュニティの主要なテーマとなりそうです。

LMSYSランキングはユーザーが実際に対話した結果を基にしているため、「人間が気持ちよく使えるか」という総合的な評価でClaude Opus 4.6が支持されていることを示しています。価格をどう折り合いをつけるかという課題はありつつも、複雑なコーディングや長文処理を必要とするヘビーユーザー向けのファーストチョイスとしての地位は当面揺るぎそうにありません。

Claude Opus 4.6がLMSYS Chatbot Arenaで首位獲得——100万トークンコンテキスト・SWE-bench 65.3%で商用最高水準

関連リンク