Research Community 2026-05-17 Source →

Microsoftが新ベンチマーク「DELEGATE-52」を発表——最先端AIエージェントでも20ターン超の長時間タスクで文書破損が頻発

Microsoftの研究チームが、AIエージェントの長時間・多ステップタスク性能を評価する新ベンチマーク「DELEGATE-52」を発表しました。評価の結果、現在最先端とされるモデルでも長時間にわたるエージェントタスクでは頻繁にドキュメントを破損させることが実証され、20ターン以上にわたって安定動作できたのはPythonプログラミングタスクのみ。研究チームは「人間の監視が依然として不可欠」と結論付けています。

現在のAIエージェントブームの中で、自律的なタスク実行能力への期待は高まる一方です。しかし今回の研究はその熱気に冷水を浴びせる内容となっています。エージェントが複数のステップにまたがって作業する際、初期の小さなエラーが後続ステップで増幅されていく「エラー蓄積問題」は以前から指摘されてきましたが、DELEGATE-52はそれを52個の実タスクで定量的に示した点が評価されています。X上では「AIエージェントはまだ『自律化』できていない。20ターン以内にタスクを完了させる設計が現実的」という反応がAIエンジニアの間で広まりました。

r/MachineLearningでは「長時間タスクのエラー蓄積問題はエージェント研究の最大の課題。このような標準的ベンチマークが業界に普及することを歓迎する」という建設的な議論が展開されました。セキュリティの観点からは、Hacker Newsで「AIエージェントに本番環境へのアクセス権を与えることへの懸念が再燃した。DELEGATE-52は実際のリスクを定量化した重要な研究」という声が専門家の間で上がっています。

今回の研究が示す教訓は、エージェントの「できること」への過信を戒めるものです。プロダクション環境にAIエージェントを導入する企業にとっては、タスクの複雑さとターン数に基づいたリスク評価の枠組みを持つことが現実的なアプローチとなります。エージェントAIの活用は拡大が続くと予想されますが、その展開には段階的な信頼構築と人間による監視体制が欠かせないことを、Microsoftの研究は改めて示しています。

Microsoftが新ベンチマーク「DELEGATE-52」を発表——最先端AIエージェントでも20ターン超の長時間タスクで文書破損が頻発

関連リンク