AI Security Community 2026-03-05 Source →

OpenAIが「プロンプトインジェクションは根本的に解決不可能」と公式に認める、ChatGPT Atlasブラウザの防御戦略を公開

OpenAIはChatGPT Atlasブラウザのセキュリティに関するブログ記事で、プロンプトインジェクション攻撃を完全に防ぐことは不可能であると正式に認めました。同社によれば、プロンプトインジェクションは「ウェブ上の詐欺やソーシャルエンジニアリングと同様に、完全に『解決』されることはないだろう」としています。

プロンプトインジェクションとは、攻撃者がWebサイト・文書・メールなどに人間の目には見えない悪意ある命令を埋め込み、AIエージェントに有害な行動を取らせる攻撃手法です。例えば、ユーザーの指示を上書きしてメールを共有させたり、銀行口座から送金させたりすることも理論上は可能です。国際AI安全報告書2026によると、洗練された攻撃者は最良の防御モデルに対しても10回の試行で約50%の確率で突破できると報告されています。

OpenAIは対策として、強化学習でトレーニングした自動レッドチームを導入し、AIの内部推論を活用した防御システムを構築しています。Hacker Newsでは「継続的な防御が必要」との見解が共有され、Redditでは「OWASPのLLM Top 10でプロンプトインジェクションが1位に選ばれた」ことが指摘されています。AIエージェントの自律性が高まる中、この問題への対処は業界全体の課題となっています。

OpenAIが「プロンプトインジェクションは根本的に解決不可能」と公式に認める、ChatGPT Atlasブラウザの防御戦略を公開

関連リンク