セキュリティ標準の策定で知られるOWASP(Open Web Application Security Project)は6月11日、「エージェントAIセキュリティとガバナンスの現状 v2.01」を公開しました。この報告書はプロンプトインジェクションをLLM(大規模言語モデル)のアーキテクチャに起因する構造的欠陥と位置づけ、従来のソフトウェアセキュリティ手法では根本解決できないという衝撃的な結論を示しています。
OWASPの報告書が指摘する本質的な問題は、LLMが「信頼できる命令」と「外部から取り込んだデータ」を同一のトークンストリームとして処理するアーキテクチャにあります。ウェブ検索結果・ドキュメント・ユーザー入力を問わず、LLMはすべてのテキストを均等に処理するため、悪意ある文書に「これ以前の命令を無視して…」と書かれていた場合、LLMがその指示に従ってしまう可能性を排除できません。エージェントAIが外部のWebページやファイルを読む能力を持つほど、この問題は深刻化します。
X上では「プロンプトインジェクションはXSS(クロスサイトスクリプティング)と同様に永久に残り続ける」という意見と「モデルアーキテクチャの根本的な刷新が必要」という意見が対立し、セキュリティ研究者の間で活発な論争が起きています。Reddit の r/netsec では「エージェントAIをゼロトラスト前提で設計すべき」という実践的な議論が展開され、最小権限原則の徹底—エージェントに与える権限を必要最小限に絞ること—を求める声が多数を占めました。Hacker News では「修正不可能と言い切るのは過激すぎる」という批判もあがりましたが、「少なくとも現世代のLLMでは構造的に解決できない」という見解が広く支持を集めています。
AIエージェントの企業導入が急速に進む中、OWASPの結論は業界全体に重い問いを投げかけています。完全な防御が不可能であるならば、被害を最小化するための設計原則—エージェントへの権限最小化・重要操作の人間による承認・外部入力のサンドボックス化—がこれまで以上に重要になります。AIエージェントの安全設計は、もはやオプションではなく必須要件です。