Ciscoが「State of AI Security 2026」レポートを公開し、AIシステムに対するプロンプトインジェクション(不正な指示の注入)攻撃とジェイルブレイク(安全機能の迂回)の進化について詳細な分析を行いました。レポートによると、これらの攻撃手法は2025年を通じて大きく成熟し、特に複数ステップにわたる攻撃や長い会話の中で実行される攻撃において、現行のGenAIモデルは依然として脆弱であると警告しています。
注目すべきは、オープンウェイトモデルの脆弱性に関する研究が進んでいる点です。レポートでは、AI企業がプロンプトインジェクション攻撃の検出を改善するにつれて、攻撃者は「モデルのメモリのより深い部分」への侵入を試みるようになると予測しています。具体的には、AIモデルが新たに学習した情報を保存するベクトルデータベースを改ざんする「ベクトル埋め込み攻撃」などの新手法が出現すると見られています。
実際の事例として、中国関連のグループがAIコーディングアシスタントをジェイルブレイクし、ポートスキャン、脆弱性の特定、エクスプロイトスクリプトの開発といったサイバー攻撃チェーンの80〜90%を自動化したケースが報告されています。Hacker Newsでは「命令とデータを区別できない根本的問題は未解決。攻撃は今後も増加予想」との声があり、r/LocalLLaMAでは「エージェントAIの自律性拡大に伴いリスクも増大。セキュリティチームの負担増加」と指摘されています。AIの能力向上とセキュリティリスクは表裏一体であり、包括的な対策が急務です。