Anthropicは「Project Glasswing」の一環として、サイバーセキュリティ特化AIモデル「Claude Mythos Preview」を限定公開しましたが、公開当日に第三者ベンダー経由で不正アクセスが発生したことが明らかになりました。Claude Mythosは主要OS・全主要ブラウザのゼロデイ脆弱性(未修正の未知の脆弱性)を自律的に発見・悪用できる能力を持つとして、Anthropicが一般公開を見送っていたモデルです。
Claude Mythosの能力を示す象徴的な事例として、17年前のFreeBSDに存在するRCE(リモートコード実行)脆弱性を自律的に発見し、悪用コードまで生成したことが報告されています。通常のセキュリティ研究者であれば長期間を要する作業を自動化できる能力は、防御的な脆弱性調査への応用が期待される一方で、悪意ある第三者が入手した場合の被害の深刻さも浮き彫りにしています。今回の不正アクセスはまさにその懸念が現実化した事例です。
セキュリティ専門家の間では「発表当日にハッキングされた」という事実が大きな衝撃を与えており、X上では強力なAIツールの管理の難しさについての警鐘が広まっています。Redditでは、Anthropicが意図的に制限公開を選んだという判断への評価と、それでも流出したことへの批判が交差しています。Hacker Newsでは17年前の脆弱性自律発見の事例が特に注目を集め、「AIによるサイバー攻撃が現実のものとなった」という認識が広がっています。
この事件はAIの能力向上とセキュリティガバナンスの乖離を鮮明に示しています。強力なサイバーAIツールの開発・管理には、モデル本体の安全性だけでなく、アクセス管理・サプライチェーンセキュリティも含めた包括的な体制が不可欠であることを改めて示した事例として、業界全体への教訓となりそうです。