Anthropicが内部開発していた研究用モデル「Mythos」が、世界的なサイバーセキュリティリスクになりうる能力を示していたことが、Washington Postの報道で明らかになりました。このモデルが実際のネットワーク脆弱性を自律的に発見・悪用できる能力を持つことが確認され、トランプ政権によるAIセキュリティ行政命令の検討を直接加速させたとされています。AI業界内ではこの出来事を「AIのオッペンハイマーの瞬間」と形容する声も上がっています。
Mythosの詳細な技術仕様は公開されていませんが、報道によるとモデルは特定のセキュリティテスト環境において、既存の脆弱性スキャナーでは検出できないゼロデイ脆弱性(未公開の欠陥)を発見する能力を示したとされています。Anthropicはこの発見を自社内で把握した後、政府機関に報告したとされており、その透明性ある対応はコミュニティから評価されています。一方で、同等の能力を持つモデルが他社でも開発されている可能性は否定できません。
X上では「AIが国家安全保障リスクそのものになった瞬間」という危機感を表す投稿が相次ぎ、フロンティアラボが自主規制で対応できるのかを問い直す声が広がっています。r/cybersecurityでは義務的AIセキュリティ監査の即時導入を求める声が急増しており、コミュニティ全体の危機感は高い水準にあります。Hacker Newsでは、Anthropicが自ら情報を公表したことの透明性を評価しつつ、同様の能力を持つモデルが他社にも存在する可能性と、それが公表されないリスクについての議論が続いています。
AIシステムが攻撃的なサイバー能力を獲得しうるという事実は、AIの安全性評価の枠組みを根本から問い直す出来事です。今後は「危険な能力」の定義と評価基準の策定、そして発見した企業がどのように情報を開示すべきかというルール作りが急務となっています。