Anthropicの最先端モデル「Mythos Preview」が、主要なOSおよびWebブラウザ全体にわたって高深刻度のゼロデイ脆弱性を複数件、自律的に発見したことがNPRの報道で明らかになりました。「Project Glasswing」と呼ばれるAnthropicの社内セキュリティ研究から生まれたこの成果は、AIが人間の専門家なしに既知ソフトウェアの未発見の穴を突けることを示す最初の公的確認事例です。
Anthropicによると、Mythos Previewはコードの静的解析とファジング(Fuzzing)を組み合わせたアプローチで脆弱性を自律的に探索し、通常なら高度な専門知識を持つセキュリティ研究者が数週間かけて行う作業を大幅に短縮できたとしています。発見された脆弱性の詳細は、影響を受けるベンダーへの通知とパッチ配布が完了するまで非公開とされており、公開の範囲もAnthropicのAI安全保障レベル(ASL)評価の結果を踏まえて厳しく制限されています。
X上では「防御に使えばいいが、同じモデルが攻撃側に渡ったら終わり」という二律背反の不安が広がっています。セキュリティコミュニティのr/netsecでは「これがASL-4相当と判断されたのも納得」とAnthropicの公開制限決定を支持する声が多く、慎重なアプローチを評価するコメントが目立っています。Hacker Newsではフロンティアモデルの能力閾値に関するAnthropicの判断プロセスを詳しく解説したブログ記事がトップに挙がり、AI能力の社会的ガバナンスについての議論が活発化しています。
AIが自律的にゼロデイ脆弱性を発見できるようになると、セキュリティ業界のパッチサイクルを根本から変えることになります。発見から修正までの時間が劇的に短縮される一方、同じ能力が悪意ある行為者に利用された場合に被害が従来以上に急速に拡大するリスクがあります。Mythosの能力は「守る側のAI」として使われるべきものですが、その前提を守るための国際的なルール作りは遅れています。