OpenAIがプロンプトインジェクション攻撃について、「詐欺やソーシャルエンジニアリングと同様に、完全に解決されることはない」と公式ブログで認めました。同社のブラウザエージェント「ChatGPT Atlas」のセキュリティ強化を報告する中での発言で、AIセキュリティの根本的な課題が改めて浮き彫りになっています。
CyberScoopによると、プロンプトインジェクションはWebブラウザ内で動作しユーザーのためにタスクを実行するAIエージェントにとって中心的なセキュリティリスクとなっています。攻撃者は通常のオンラインコンテンツの中に悪意のある指示を埋め込み、AIエージェントの動作を乗っ取ってユーザーの意図ではなく攻撃者の意図に従わせます。OpenAIは内部の自動レッドチーミングで新種のプロンプトインジェクション攻撃を発見し、最近ChatGPT Atlasのセキュリティアップデートを配布したと報告しています。
同社は敗北を認めるのではなく、継続的な防御アプローチを取る姿勢を示しています。プロンプトインジェクション対策の最前線研究と他のセキュリティコントロールへの投資を組み合わせ、攻撃をより困難でコストのかかるものにすることで実世界のリスクを大幅に低減するとしています。Hacker Newsでは「指示とデータを区別できない」というLLMの根本的な問題として議論が活発化し、Redditでは正直な認識として評価する声と解決策を求める声が混在しています。
プロンプトインジェクションという脅威と共存しながら、いかにリスクを最小化するか。AIセキュリティの新たな課題に対する業界の取り組みが注目されます。