ロボット制御に使用される視覚言語行動モデル(VLA: Vision-Language-Action Model)が敵対的摂動(Adversarial Perturbation)に対して深刻な脆弱性を持つことを、arXiv論文(2506.03350)が実証しました。さらに別の研究では、フロンティアモデルに対するマルチターン敵対的攻撃がモデルの規模に関わらず高い有効性を示すことも明らかになっており、「モデルを大きくすれば安全になる」というスケーリング神話に根本的な疑問が投げかけられています。
デジタル上のLLMへの攻撃(ジェイルブレイクやプロンプトインジェクション)は情報漏洩や誤情報生成に留まりますが、ロボット制御AIへの攻撃は物理的な結果をもたらします。工場の組み立てロボット・手術支援ロボット・自律走行車・物流ドローンといったシステムにVLAが採用される場合、敵対的摂動によって誤動作が引き起こされれば人命に関わるリスクがあります。ロボット工学・AI安全コミュニティではX上で「物理世界に展開されたAIへの攻撃は、デジタル領域のリスクとは桁違いの危険性がある」として広く共有されました。
マルチターン敵対的攻撃に関する研究は、モデルの規模による安全性向上の限界を示す点でも重要です。GPT-4クラスのモデルでも小型モデルと同様の攻撃に対して脆弱であるとすれば、現行のAIスケーリング戦略が安全性の向上に自動的につながるという前提は崩れます。Hacker Newsでは「スケーリングで安全性が向上するという前提が崩れつつある」という指摘とともに、AI安全研究への投資拡大を求める議論が展開されました。
r/artificialでは「AIの安全性評価がデジタル領域のみに偏っており、物理的AIシステムへの敵対的攻撃研究が不足している」という問題意識が共有されています。ロボティクスへのAI応用が急加速するなか、VLAの安全性評価フレームワークと標準化された防御手法の確立が急務となっています。現状では攻撃研究が防御研究を大きく先行しており、このギャップを埋めるための研究・政策の両面からの対応が求められています。