2026年においても、プロンプトインジェクション攻撃はOWASP(開放型Webアプリケーション・セキュリティ・プロジェクト)が公開するLLMアプリケーション脆弱性リストの首位を維持しています。本番環境にデプロイされているAIシステムの73%が依然としてこの攻撃に対して脆弱であるとされており、問題が深刻化しています。Palo Alto NetworksのUnit 42は2026年3月、間接プロンプトインジェクション攻撃が実際の野外環境で大規模に発生していることを初めて確認し、広告審査の回避やシステムプロンプトの漏洩が商用プラットフォームで起きていたと報告しました。
プロンプトインジェクションとは、悪意あるテキストをAIへの入力に紛れ込ませ、本来の指示を上書きする攻撃手法です。セキュリティ研究者のBruce Schneier氏らが以前から指摘しているように、「LLMの内部ではコードとデータの区別が存在しない」ため、SQLインジェクションのような従来型攻撃と異なり現行アーキテクチャでは根本的な解決が困難だとされています。この観点からのX上の投稿が広く共有され、「設計上の欠陥」として捉える議論が広まっています。
r/netsecでは、単一エージェントへの攻撃にとどまらず、マルチエージェントシステムへの連鎖攻撃が現実味を帯びてきたとの指摘が注目されています。エージェントAが攻撃されると、その結果を受け取るエージェントBも影響を受けるという「連鎖汚染」は、被害規模を指数的に拡大させる可能性があります。Unit 42が報告した野外発見事例はこの危機感を裏付けており、Hacker Newsでは「もはや理論的脅威ではなく現実のインシデント。防御側のツールが攻撃の進化に追いついていない」という声が多数を占めました。