GoogleのGemini 3 Deep Thinkが、科学推論の難関ベンチマーク「Humanity's Last Exam」で48.4%を達成し、新記録を樹立しました。1年前にOpenAIのo3ベースのDeep Researchが記録した26.6%、DeepSeek R1の9.4%を大きく上回る成果です。
Humanity's Last Examは、専門家が設計した数千の問題で構成され、「人間には容易だがAIには極めて困難」な領域をテストします。データが希少で論理が密な専門学術分野が中心です。Gemini 3 Deep Thinkは2026年2月12日に発表され、この難関ベンチマークでの躍進だけでなく、ARC-AGI-2で84.6%、2025年の国際物理オリンピック・化学オリンピックの筆記試験で金メダルレベルの成績、理論物理学のCMT-Benchmarkで50.5%を達成するなど、複数の科学系指標で優れた結果を残しています。
r/MachineLearningでは「まだ50%未満」と懐疑的な見方もありますが、1年で22ポイント近い進歩は注目に値します。Hacker Newsでは「科学研究でのAI活用可能性」に関する議論が活発で、特に理論物理学や化学分野での応用に期待が寄せられています。
ベンチマークスコアがそのまま実用性を示すわけではありませんが、複雑な推論を要する科学研究分野でAIがどこまで貢献できるか、その可能性を示す重要な一歩といえます。