AlibabaのQwenチームは、ハイブリッドアテンションとスパースなMoE(Mixture of Experts)を組み合わせた新アーキテクチャ「Qwen3-Next-80B-A3B」を公開しました。80Bパラメータを持ちながら、推論時にはトークンあたりわずか3Bのみを活性化する超効率設計で、MoEモジュールは512個のルーティング専門家と1個の共有専門家から構成されています。
性能面では、4,000トークン入力時にQwen3-30B-A3Bと同等速度、Qwen3-32Bの3倍の速度を実現。128,000トークン入力時には、Qwen3-30B-A3Bの3倍、Qwen3-32Bの10倍高速という驚異的な効率を達成しています。Thinking(推論)モードを搭載したバリアントは、複雑な推論タスクでGemini-2.5-Flash-Thinkingを上回る性能を示しました。
Hacker Newsでは「Apache 2.0ライセンスで計算コストを大幅削減、研究者・開発者へのインパクト大」と評価され、Redditでは「コーディングタスクでオープンソースLLM最強」「非コーディング版がqwen3-coder-30bより優秀」との声が上がっています。Multi-Token Prediction(MTP)による推論高速化とハイブリッドアテンション機構により、大規模モデルの民主化がさらに一歩前進しました。