OpenAIがChatGPTおよび新AIブラウザ「Atlas」向けに「Lockdown Mode」をリリースするとともに、プロンプトインジェクション攻撃について「ウェブ上の詐欺やソーシャルエンジニアリングと同様、完全に『解決』されることはないだろう」という公式見解を発表しました。
プロンプトインジェクションとは、悪意のある指示をAIモデルに注入し、意図しない動作を引き起こす攻撃手法です。Lockdown Modeはデータ流出リスクを大幅に軽減するよう設計されていますが、OpenAIは「プロンプトインジェクションがコンテキストに到達すること自体を決定論的に防ぐものではない」と説明しています。例えば、ウェブブラウジング中のキャッシュコンテンツやアップロードされたファイルに隠された悪意のある攻撃は、依然としてChatGPTの挙動に影響を与える可能性があります。
この問題は業界全体で認識されています。英国国家サイバーセキュリティセンター(NCSC)も、生成AIアプリケーションに対するプロンプトインジェクション攻撃は完全には緩和できない可能性があると警告し、リスク低減と影響の限定に注力するよう組織に助言しています。Hacker Newsでは「根本的なアーキテクチャ問題」として長期的な議論が続いており、r/MachineLearningでは多層防御アプローチの必要性を強調する声が上がっています。Ciscoの調査によると、プロンプトインジェクション対策を導入している企業はわずか34.7%にとどまっています。
OpenAIはこの問題を「一度の修正で解決する問題」ではなく、「継続的な圧力が必要な長期的セキュリティ課題」と位置づけ、より速いパッチサイクル、継続的テスト、多層防御を組み合わせたアプローチで対応していく方針です。