中国のDeepSeekが「V3.2」および数学・競技プログラミング特化版「V3.2-Speciale」をリリースし、AI業界に再び衝撃を与えています。V3.2-Specialeは国際数学オリンピック(IMO)2025で42点満点中35点の金メダルレベルを達成し、国際情報オリンピック(IOI)2025では600点満点中492点で人間参加者の10位相当の成績を記録しました。標準版のV3.2はGPT-5および Gemini 3.0-Proと同等水準の推論ベンチマーク性能を示しており、Hugging Face Transformers v5.11.0への正式収録も行われました。
DeepSeek V3.2の標準版はAIMEで96%、Harvard-MIT数学トーナメントで99.2%(Gemini 3.0-Proの97.5%を上回る)を達成しています。エージェント汎化能力においても高水準のベンチマーク結果を示しており、「クローズドモデルより6〜12ヶ月遅れ」という従来の通説を覆しつつあります。
X上では「オープンモデルはクローズドモデルより6〜12ヶ月遅れ」という通説を覆すとして、中国AI開発の底力に驚く声が多数寄せられました。一方でr/LocalLLaMAでは実際の推論速度の遅さへの不満と、価格対性能比の高さへの評価が混在しており「ベンチマークと実運用のギャップ」についての議論が続いています。Hacker Newsでは中国製モデルの利用に対する地政学的懸念と、オープンウェイトモデルの科学的価値のバランスについて意見が割れています。
高性能オープンモデルの登場は、フロンティアAI技術へのアクセスを民主化する一方で、安全性の観点から複雑な課題をもたらします。研究機関や企業がAPIコスト不要でGPT-5クラスの推論を活用できるようになることは産業応用を加速させますが、どの組織が・どのような目的でモデルを使用するかを管理する手段がなくなることも意味します。競技数学・プログラミング領域での人間超えに続き、次にDeepSeekが攻略する課題領域がどこになるかが今後の注目点です。