中国のAI研究機関DeepSeekは、次世代モデル「V4」を4月下旬に公開する見込みです。Reuters報道によれば、V4は1兆パラメータのMoE(Mixture of Experts)アーキテクチャを採用し、NVIDIAのH100へのアクセスが制限される中でHuawei Ascend 950PRチップに完全最適化して開発されました。米国の輸出規制が「中国はフロンティアモデルを作れない」という前提に立っていただけに、この事実は業界に大きな衝撃を与えています。
DeepSeekは開発にあたり、Huaweiに対してAscend 950PRチップへの早期アクセスを提供する一方、NVIDIAへの早期アクセスを意図的に与えなかったとTech Startups等が報じています。つまり、輸出規制への対応策として始まったHuaweiチップへの最適化が、今や設計思想の中心に据えられた格好です。
訓練コストはCambriconのMLUチップも含めた国産チップ群で約520万ドルと推定されており、この数字に懐疑的な声もあります。Hacker Newsでは「インフラの償却コストを含めると数字が変わるはず。それでも驚くほど安い」という分析が注目を集めました。Alibaba・ByteDance・Tencantなど中国大手がAscendチップを数十万台規模で発注していることも複数の報道で確認されており、V4の推論インフラとして国産半導体が本格的に稼働し始めていることがわかります。
X(旧Twitter)では「NVIDIAに頼らずフロンティアモデルが作れると証明された。米国の半導体輸出規制の抜け穴が現実となった」との声が拡散しています。r/geopoliticsでは「輸出規制が逆にHuaweiチップの能力向上を促した。皮肉な結果だが長期的には見直しが必要だ」という議論が活発で、Hacker Newsでも「技術デカップリングは加速する」という見方が多くの支持を集めました。
V4はApache 2.0ライセンスでのオープンウェイト公開が期待されており、r/LocalLLaMAコミュニティでは「V3が既に驚異的だったのにV4が出るなら自己ホスティングの選択肢が根本的に変わる」と大きな期待が集まっています。「誰でもダウンロードできる1兆パラメータモデル」が現実のものとなる日は、もう間もなくです。