UCLAの研究チームが、がん病理組織画像に人間の目では見えないほど微小なノイズパターンを付加するだけで、複数の病理AIファンデーションモデルの特徴抽出能力を横断的に無力化できる「普遍的・転移可能な敵対的摂動(UTAP:Universal and Transferable Adversarial Perturbation)」を実証しました。従来の防御手法も突破されることが確認されており、臨床現場で導入が進むAI診断システムの安全性評価に根本的な見直しが求められています。
UTAPの最も深刻な点は、一つの摂動パターンが特定のモデルに特化せず、複数の病理AIファンデーションモデルに対して同時に有効であることです。これを「転移性」と呼びます。攻撃者は標的モデルの詳細を知らなくても攻撃が成立するため、実際の医療環境でも悪用可能なシナリオが現実的になります。
UCLAの研究者によると、従来の防御策として広く用いられてきた「空間的ローパスフィルター(画像の高周波ノイズを除去する処理)」もUTAPには無効でした。研究論文では「防御機構に依存する攻撃者ならその防御自体をバイパスできる」という知見が示されており、X上では医療AIコミュニティに衝撃を与え、臨床導入前の安全性評価の抜本的見直しを求める声が高まりました。
Redditでは「汎用的な敵対的摂動がモデルをまたいで転移する点が最も危険」という分析が上位コメントを占め、病理AI製品を医療機器として承認している各国規制機関に対して、認証プロセスの見直しを訴える声も多く見られました。特に米国ではFDAのAI/ML医療機器ガイダンスの更新が急務とされています。
この研究が示すのは、一度承認を通過したAI医療機器でも、敵対的な入力に対して継続的に脆弱性テストを行う必要があるということです。従来の医療機器が固定されたソフトウェアであるのに対し、AIモデルは入力データへの感度が複雑に絡み合っており、承認時の性能が現場での安全性を保証しない場合があります。ポスト承認モニタリングの仕組み整備が、AI医療診断の普及と安全確保を両立するための重要な課題となっています。