Anthropicはサイバーセキュリティに特化した最高機密レベルのAIモデル「Claude Mythos Preview」を、約50社のパートナー企業に限定公開したことをTechCrunchが報じました。このモデルは主要なOS(オペレーティングシステム)やWebブラウザに対して数千件ものゼロデイ脆弱性(未修正の欠陥)を自律的に発見できるほど強力であり、その危険性が高すぎることを理由に一般公開が見送られています。
Mythosの能力の凄まじさを示す事例として、OpenBSDで27年間にわたって誰も発見できなかった脆弱性をこのモデルが特定したという報告がX(旧Twitter)上で衝撃を与え、「AIが既存のセキュリティ前提を根底から覆す」可能性についての激しい議論が勃発しました。英国AI安全研究所(AISI)が実施した独立評価報告書もHacker Newsで話題となり、モデル能力評価の透明性と国際的な協調体制の必要性についての議論が深まっています。
セキュリティコミュニティの反応は深刻です。r/netsecでは「発見された脆弱性の99%以上がまだパッチ未適用」という事実が多くの懸念を呼び、防御側よりも攻撃側がこのような技術の恩恵を受けるリスクを訴える声が相次いでいます。実際、同日報告されているメキシコ政府へのAI悪用サイバー攻撃(id:7)と組み合わせて考えると、AIが攻撃インフラとして機能し始めた現実が浮き彫りになります。
Mythosの限定公開という判断は、Anthropicが能力開発と安全性のバランスを取ろうとする姿勢の表れといえます。しかし、50社に提供されている時点でその技術が完全に管理下に置かれているとは限りません。AIによるセキュリティ脆弱性発見がどこまで自動化・加速されるかは、政府・企業のセキュリティ体制に根本的な見直しを迫る可能性があります。