カリフォルニア大学ロサンゼルス校(UCLA)の研究チームが、がん病理診断に使われるAI基盤モデル(foundation model:大量データで事前学習され多用途に転用できる大規模モデル)を標的とした「汎用転移可能な敵対的摂動(UTAP:Universal and Transferable Adversarial Perturbation)」を発表しました。この攻撃手法は、医療画像にほぼ目に見えない微細なノイズを加えるだけで、複数の外部病理AIモデルを誤動作させ、悪性所見の見落としを引き起こす可能性があります。医療AIのセキュリティ上の脆弱性が現実の患者リスクとして直結することを改めて示す、衝撃的な研究結果です。
敵対的摂動(adversarial perturbation)とは、人間の目にはほぼ気づかれない程度の微小な入力ノイズを意図的に加えることで、AIモデルを意図した方向へ誤動作させる技術です。今回UCLAが発表したUTAPの特徴は「汎用性」と「転移可能性」にあります。特定のモデルに合わせて調整するのではなく、1つの摂動パターンを生成するだけで、訓練に使用していない複数の異なる病理AIモデルに対しても攻撃が有効に機能するという点が従来研究から一歩踏み込んだ点です。
実際の攻撃シナリオとして想定されるのは、がんスクリーニングや組織病理診断に使われるデジタル病理スライド画像への改ざんです。攻撃者が医療施設のシステムや画像配信経路に侵入し、検査画像にUTAPノイズを埋め込むことで、AIが悪性腫瘍を見落としたり良性と誤判定したりするリスクが生じます。見逃し一件が患者の生死に関わりうる病理診断の現場において、このリスクは決して理論上の話にとどまりません。
研究チームが特に強調しているのが、標準的な防御手段の無効性です。医療画像処理でよく使われる空間ローパスフィルタ(高周波ノイズを除去する平滑化処理)をかけても、UTAPによる攻撃効果が維持されることが確認されました。これは、従来の「画像ノイズ除去で対処できる」という前提を崩す重要な発見です。Redditのセキュリティコミュニティでも「適応的攻撃に対して従来の防御は無力だという事実が今後の研究の出発点になる」との指摘が広がっています。
HackerNewsでは「医療AIへの敵対的攻撃は単なる学術的な理論ではなく、患者の命に直結する問題。FDA(米食品医薬品局)のAI承認プロセスを根本から見直すべき」という議論が活発に行われました。現状、多くの医療AIシステムは承認取得後の継続的な敵対的堅牢性評価が義務付けられていないため、今回の研究は規制の空白を浮き彫りにしています。
X(旧Twitter)では「UTAP論文はAI医療安全の転換点。Closed-loop防御フレームワーク(攻撃検知から隔離・再学習までを一貫して自動化する仕組み)の普及が急がれる」との声も上がっており、防御側のアーキテクチャ刷新を求める機運が高まっています。
研究チームはUTAPの手法公開とともに、新たな防御フレームワークの必要性を訴えています。医療AIの導入が急速に進む中、ロバスト性(頑健性)の検証を開発・承認プロセスに組み込むこと、そして実運用環境での継続的なモニタリング体制の整備が急務といえます。目に見えない脅威に対して、医療AIの信頼性をどう担保するか——業界全体が問われる局面を迎えています。