中国アリババ(Alibaba)のAI部門が開発した「Qwen 3.6 Max-Preview」が、SWE-bench Pro・Terminal-Bench 2.0・SkillsBench・SciCodeを含むコーディング・エージェント系ベンチマーク6項目で同時首位を獲得しました。OpenAIやAnthropicのクローズドモデルを含む比較で最高スコアを記録しており、アジア発AIの存在感が一段と高まっています。
SWE-bench Proはソフトウェアエンジニアリングのリアルなタスクを模したベンチマークで、AIのコーディング能力を測る指標として業界標準の一つになっています。Qwen 3.6 Max-Previewはこれに加え、ターミナル操作(Terminal-Bench 2.0)・スキルの汎化能力(SkillsBench)・科学的コーディング(SciCode)などで同時に首位を獲得しました。
Redditのr/LocalLLaMAでは、このスレッドが760アップボートを記録し、「普段はClaude OpusやCodexにしか任せない作業をこなした」「性能ジャンプが本物だった」という実体験レポートが続出しています。X(旧Twitter)では「AlibabaがOpenAIとAnthropicを同時に抜いた」という投稿が拡散した一方、比較対象がClaude 4.5(最新のOpus 4.7ではなく)であることを指摘するコメントも見られ、ベンチマーク解釈に対する慎重な目線も存在しています。Hacker Newsでは独立したテスターからAPIの動作における「捏造率(ハルシネーション率)」への懸念も挙がりましたが、ベンチマーク結果そのものを評価する声が優勢でした。
これまで中国のAIモデルは「ベンチマーク向けの調整に優れているが実用性に疑問がある」という評価がつきまといました。しかし実体験レポートの蓄積と6項目同時首位という客観的な数字は、その批判をかなり払拭するものです。コーディングAIの競争は、OpenAIのCodexやAnthropicのClaudeだけでなく、AlibabaのQwenや DeepSeek V4など多軸に広がっており、開発者にとっては選択肢が劇的に増えた局面といえます。実際の業務でどのモデルを選ぶかは、コスト・ライセンス・信頼性を総合的に判断する時代に入っています。