AI Security Community 2026-06-02 Source →

間接プロンプトインジェクションの実環境大規模攻撃を初確認—Palo Alto Unit 42報告、GPT-4oとClaudeクラスで証明

Palo Alto NetworksのセキュリティリサーチチームUnit 42が、2026年3月に実際の商用プラットフォーム上で広告審査回避やシステムプロンプト漏洩を目的とした間接プロンプトインジェクション攻撃を大規模に観測し、初めてその実態を報告しました。GPT-4oおよびClaudeクラスのモデルを組み込んだエージェントシステムでのサイレントデータ漏洩も実証されており、学術的脅威が現実の攻撃へと格上げされた転換点として業界に衝撃を与えています。

間接プロンプトインジェクション（Indirect Prompt Injection）とは、攻撃者がウェブページ・メール・ドキュメントなど「AIが読み込む外部コンテンツ」に悪意ある命令を埋め込み、AIエージェントにその命令を実行させる攻撃手法です。直接ユーザーがプロンプトを操作する「直接インジェクション」と異なり、AIが信頼して参照する外部データが武器に変わる点で防御が格段に難しく、メールを読み込んで自動返信するエージェントや、ウェブ検索結果を取得して処理するパイプラインが典型的な攻撃経路になります。Unit 42によれば、今回観測された攻撃では広告レビューシステムのルール迂回に加え、他ユーザーのシステムプロンプト（設定情報）の窃取が実際に成功したケースが確認されたとしています。

X（旧Twitter）では「実環境での大規模攻撃が初確認されたことで、プロンプトインジェクションが学術的脅威から現実的脅威へ格上げされた」という認識が急速に広がっています。Redditのr/netsecとr/MachineLearningでは「メールや文書を読み込むすべてのAIエージェントは間接インジェクションにさらされている—設計レベルでの対策が急務」という議論が白熱し、具体的な防御策（入力サニタイズ、コンテキスト分離、特権ティアの導入）を求める声が相次ぎました。Hacker Newsでは「Unit 42のレポートはAIセキュリティの転換点になる可能性がある—企業はエージェント導入のリスク評価フレームワークを今すぐ更新すべき」という問題提起が多くのポイントを集めました。

本報告はMicrosoft Semantic KernelのRCE脆弱性（CVE-2026-25592/26030）やCrewAIのサンドボックス脱出チェーンと並び、AIエージェント全体に横断するセキュリティ課題を浮き彫りにしています。RAGパイプラインや外部ツール呼び出しを実装しているすべての開発チームは、外部コンテンツを「信頼できない入力」として扱う設計原則の徹底が急務です。

間接プロンプトインジェクションの実環境大規模攻撃を初確認—Palo Alto Unit 42報告、GPT-4oとClaudeクラスで証明

関連リンク