Open Source Community 2026-03-31 Source →

アリババQwen 3.5 9B、大学院レベル推論で120Bモデルを超える81.7点 — Apache 2.0で商用無償利用可能なマルチモーダルLLM

アリババのQwenチームが2026年3月2日に公開した「Qwen 3.5 9B」が、大学院レベルの推論ベンチマーク「GPQA Diamond」で81.7点を記録し、13倍以上のパラメータ数を持つOpenAIの「GPT-OSS-120B」（80.1点）を上回りました。全モデルがApache 2.0ライセンスで商用利用可能な上、標準的なノートパソコンでも動作するという実用性の高さが、AI開発者コミュニティから大きな注目を集めています。

なぜ9Bが120Bを超えられるのか

GPQA Diamondは生物学・物理学・化学の博士号保持者が作成した198問の多肢選択式テストで、「Googleで検索しても解けない」ことを設計条件とした高難度ベンチマークです。Qwen 3.5 9Bがこの試験で120Bモデルを超えた鍵は、アーキテクチャの革新にあります。ゲート付きDeltaNetリニアアテンションとスパース標準アテンションのハイブリッド設計により、9Bパラメータという小型モデルながら最大262,144トークン（最大100万トークンまで拡張可能）のコンテキストウィンドウをサポートしています。視覚推論（MMMU-Pro: 70.1点）でも性能を発揮し、テキスト・画像・動画のネイティブマルチモーダル処理に対応しています。

X上では「13倍のパラメータ数を持つモデルを性能で超えた」というスペックへの驚きが相次ぎ、「小型モデルの性能向上が予想を超えるペースで進んでいる」という議論が活発化しました。Apache 2.0ライセンスでの商用利用可能な点も開発者から高く評価されており、Hacker Newsでは「モデルサイズ対性能比の劇的な改善がアーキテクチャの工夫によるものか学習データの質によるものか」を分析するコメントが多く、技術的な議論が展開されています。

企業AI活用のコスト計算が変わる

Qwen 3.5 9Bが示す最大のインパクトは、コスト構造の変革です。高価なクラウドAPIや専用GPUクラスタがなくても、研究者レベルの推論能力をオープンウェイト・無料で手に入れられる時代が到来したことを意味します。ただし、gpt-oss-120Bが複雑な推論チェーンや特定のコード生成タスクで依然として優位な場面があることも指摘されており、「9Bモデルが全ての場面で勝つわけではない」という冷静な評価も見られます。0.8B・2B・4B・9Bの4サイズをエッジデバイスから中規模サーバーまで用途に合わせて選べるシリーズ構成も、企業導入のハードルを下げる要因となっています。クローズドモデルとオープンモデルの性能差が急速に縮まっている今、AI活用の「コスト対性能」の最適解は大きく塗り替えられつつあります。

アリババQwen 3.5 9B、大学院レベル推論で120Bモデルを超える81.7点 — Apache 2.0で商用無償利用可能なマルチモーダルLLM

なぜ9Bが120Bを超えられるのか

企業AI活用のコスト計算が変わる

関連リンク