Anthropicは5月5日、「Project Glasswing」の一環として、サイバーセキュリティに特化したフロンティアモデル「Claude Mythos Preview」を限定パートナー向けに公開しました。主要OSおよびWebブラウザのゼロデイ脆弱性を自律的に発見・悪用できる能力を持つとされ、「一般公開するには危険すぎる」として、アクセスは厳格に制限されています。
Anthropicはこのリリースに際して「世界の最重要ソフトウェアを守る緊急イニシアチブ」と位置づけており、英国のAI Safety Institute(AISI)による評価では「AISIサイバーレンジをエンドツーエンドで完了した初めてのモデル」と認定されました。これは、AIモデルが実際のサイバーセキュリティテスト環境で人間の介入なしに一連の攻防シナリオを完遂できたことを意味します。つまり、このモデルは攻撃側の視点で脆弱性を発見するだけでなく、実際の悪用ステップまで自律的に実行できるとみられています。
X(旧Twitter)ではAI Safety Instituteの評価がすぐに拡散しましたが、一方でHacker Newsでは「一般公開が危険すぎる」という枠組みそのものへの懐疑的なコメントが相次ぎました。「この『危険すぎる』という語り口は、モデルの能力を誇示しながらアクセスを制限するマーケティング戦略では?」という声も少なくなく、安全性とアクセシビリティのトレードオフについて活発な議論が続いています。Redditでは「OpenAIも同様の限定公開戦略を取っており、業界全体で『危険すぎる』という枠組みが新常態化しつつある」との批判的な分析も見られました。
限定公開という形式は、能力の暴走を防ぎながら防衛目的での活用を進めるための現実的な妥協点とも言えます。しかし、このモデルが悪意ある組織の手に渡れば甚大な被害をもたらす可能性があるのも事実であり、AIの安全管理に関する業界標準をどう確立するかが、今後の最重要課題として浮上しています。