Alibabaは2026年1月25日、Qwenシリーズのフラッグシップモデル「Qwen3-Max-Thinking」を発表しました。Humanity's Last Exam(HLE)ベンチマークで58.3%を達成し、GPT-5.2やGemini 3 Proを約13ポイント上回る結果を記録。さらにAIME25では100%を達成し、数学的推論能力の高さを証明しています。
InfoWorldによると、Qwen3-Max-Thinkingは「大規模スケール、推論時計算、自律的ツール統合」という3つのフロンティアAIトレンドの収束を体現するモデルです。19の確立されたベンチマークでGPT-5.2-Thinking、Claude Opus 4.5、Gemini 3 Proに匹敵する性能を示しています。特筆すべきは、GPT-5.2-Thinkingと比較して入力で約12分の1、出力で約10分の1のコストでありながら、HLEとGPQAでは上回る性能を発揮している点です。GIGAZINEの報道でも「GPT-5.2相当の性能を持つ推論AIモデル」として紹介されています。
Alibaba Cloudの技術ブログによると、同モデルは適応的ツール使用(Adaptive Tool Use)技術を搭載しており、状況に応じてツールを知的に活用します。X上では「中国AI競争の次の大きな動きを示唆」との分析がなされており、米中AI競争における中国勢の躍進を象徴する発表となりました。
コスト効率と高性能の両立は、エンタープライズAI市場に新たな選択肢を提供します。特に大量の推論タスクを処理する企業にとって、Qwen3-Max-Thinkingは魅力的な選択肢となるでしょう。
| - [Alibaba's Qwen3-Max-Thinking expands enterprise AI model choices | InfoWorld](https://www.infoworld.com/article/4122696/alibabas-qwen3-max-thinking-expands-enterprise-ai-model-choices.html) |
|---|---|
| - [Alibaba Announces Qwen3-Max-Thinking | GIGAZINE](https://gigazine.net/gsc_news/en/20260127-qwen3-max-thinking/) |
| - [Pushing Qwen3-Max-Thinking Beyond its Limits | Qwen.ai](https://qwen.ai/blog?id=qwen3-max-thinking) |