中国のAI企業DeepSeekが公開したオープンソース大規模言語モデル「DeepSeek-V3.2」が、数学とプログラミングの競技ベンチマークで商用モデルを上回る性能を達成し、AI業界に衝撃を与えています。
DeepSeek-V3.2は、数学オリンピック形式のAIMEベンチマークで96.0%のスコアを記録し、OpenAIのGPT-5(94.6%)を超える結果を出しました。さらにコーディング能力を測るCodeforcesでは2701のレーティングを獲得し、これは人間の競技プログラマーの上位0.2%に相当する「Grandmaster」ティアに位置します。国際プログラミングコンテストICPC World Finals 2025では2位、IOI 2025では10位という実績も残しており、理論だけでなく実践的な問題解決能力も証明されています。
特に注目すべきはそのコスト効率です。V3.2-Specialeモデルは100万トークンあたり入力$0.28、出力$0.42という価格設定で、GPT-5の約10分の1のコストで利用可能です。r/LocalLLaMAでは「V4でオープンソースがこのベンチマークを達成すれば米国ラボは終わり」という声が上がる一方、Hacker Newsでは「チャットUIはベンチマークほど印象的ではない」という冷静な評価も見られます。
開発ツールClineが131Kコンテキストで両モデルを追加したことで、X上ではLM Arenaでの比較が話題になっています。オープンソースモデルがフロンティアモデルに肩を並べる時代の到来を予感させる発表となりました。