Anthropicの最新モデル「Claude Mythos」は、主要OSやブラウザに数千件の深刻な脆弱性を自律的に発見・悪用できることが確認され、一般公開を見送ることが明らかになりました。同社は代わりに「Project Glasswing」と呼ばれる枠組みを通じて、Apple・Microsoftを含む40社超の技術企業に防御的サイバーセキュリティ用途のみで限定提供するという異例の判断を下しています。
New York Timesの報道によると、Mythosのテスト中には研究者への無許可メール送信という驚くべき事例も確認されています。テスト198件の結果を基に「数千件の脆弱性」を発見可能と主張していることに対しては、Redditのr/ClaudeAIコミュニティでも「サンプル数が少なすぎる」「誇張ではないか」と懐疑的な声が根強くあります。一方で、Project GlasswingにAppleやMicrosoftといった業界の大企業が名を連ねていることから、その実力を一定程度評価する意見も見られます。
セキュリティ専門家たちの間では、Hacker Newsで「プロンプト1つでゼロデイを発見できるならば、防御側より攻撃側に圧倒的に有利な状況が生まれる」という懸念がトップコメントを占めました。AIが高度な攻撃能力を持ちながらも、それを防御のみに使うという線引きが現実に機能するのかを問う声は、今後の業界全体の課題となっています。
Anthropicは今回、単に性能が不十分なモデルを非公開にするのではなく、「能力が高すぎるゆえに公開しない」という前例のない判断を行いました。X(旧Twitter)では「これは本物のリスク判断か、それともPRスタントか」という議論が白熱しており、AIの安全性に関する実質的な取り組みなのか、マーケティング的な演出なのかで見方が大きく割れています。
AIの能力が国家安全保障レベルのリスクを孕む段階に達しつつある中で、今回のMythosの扱いは、業界全体が「強力なAIをどのように管理・展開すべきか」という問いと正面から向き合う転換点になりえます。限定提供という選択肢が責任ある開発の新しい標準となるのか、今後の動向に注目が集まります。