Research Community 2026-04-18 Source →

人間の科学者がAIエージェントを複雑タスクで2倍上回る——Natureが「AIは万能研究者ではない」と報告

科学誌Natureに発表された新たな研究で、博士号を持つ専門家は最高クラスのAIエージェントと比べて複雑な科学タスクで約2倍の成果を達成することが明らかになりました。AIの科学研究への応用には大きな可能性があるものの、現時点では専門的な科学的判断の代替にはならないと研究チームは結論付けています。

SWE-benchなどのソフトウェアエンジニアリングベンチマークでAIが「100%達成」という報告が続く一方、実際の科学研究に近い複雑・非構造的なタスクでは依然として人間の専門家が大きく上回るという結果は、ベンチマークと現実の乖離を鮮明に示しています。X上では「SWEベンチ100%という主張の直後に、現実の複雑タスクでは人間の半分しか達成できないという研究が出た。文脈が重要」という冷静な比較投稿が注目を集めました。

r/MachineLearningでは「ベンチマークと実際の研究タスクのギャップを示す重要な研究」として高く評価され、「AIは道具であり、自律的な研究者の代替ではない」という議論の根拠として引用されています。Hacker Newsでは「複雑な科学タスクの評価手法自体に議論の余地がある」と指摘するコメントがある一方、「AIが科学を加速させることと、AIが科学者を代替することは別問題」という整理は広く支持を集めています。

研究者の代替ではなく、研究を加速するツールとしてのAIという位置付けが今後の主流になりそうです。AIの能力と限界を正確に理解した上で活用する姿勢が、科学分野でのAI導入における現実的なアプローチと言えます。

人間の科学者がAIエージェントを複雑タスクで2倍上回る——Natureが「AIは万能研究者ではない」と報告

関連リンク