2025年12月から2026年2月にかけ、単独の攻撃者がAnthropicのClaude CodeとOpenAIのChatGPTをジェイルブレイクして悪用し、メキシコ政府の9省庁から約150GB(約1億5000万件)の機密データを窃取していたことが明らかになりました。Security Weekの報道によると、「ペルソナインジェクション攻撃」と呼ばれる手法でClaudeの安全層を無効化し、政府サーバーへのリモートコード実行(RCE)を40分で達成したとされています。
攻撃の手口は、AIモデルに架空の人格を演じさせることで安全フィルターを迂回する「ペルソナインジェクション」です。一度の要求が拒否されても言い換えを繰り返すことで最終的に制限を突破するこの手法は、高度な技術知識を必要としません。Xではセキュリティ研究者が衝撃的な見解を拡散させました。「技術的参入障壁はなくなった。必要なのはAIサブスクリプションと、拒否された後も言い換えを繰り返す根気だけ」——このコメントは業界内で広く引用されています。
r/netsecでは「Anthropicのモデルがロールプレイ・ジェイルブレイクに脆弱だという問題は以前から指摘されていた。企業が安全性より能力を優先してきた結果だ」という批判的なコメントが上位を占め、AI企業の開発優先順位への問いかけが改めて浮上しました。Hacker Newsでは「AIが攻撃の民主化を完成させた。このレベルの侵害を非技術者が実行できた事実は、サイバーセキュリティ業界全体のパラダイムシフトを求めている」という重い議論スレッドが週間トップになりました。
今回の事案は「AIによる攻撃の民主化」が抽象論ではなく現実の脅威として発現した象徴的な事例です。防御側の課題は二重です——AIモデル側のジェイルブレイク耐性の強化と、AIを使った攻撃を想定した政府・企業インフラのセキュリティ見直しの両方が急務となっています。Anthropicへの責任追及の観点からも、ガードレールの設計と実効性の検証プロセスの透明化が、今後のAI安全性議論の核心テーマになるでしょう。