Anthropicは4月7日、史上最高性能のAIモデル「Claude Mythos」を完成させながら、一般公開を見送る異例の決断を下しました。GPQA Diamond 94.6%・SWE-bench Verified 93.9%という圧倒的なスコアを達成したにもかかわらず、同モデルが主要OS・ブラウザに多数の未公表ゼロデイ脆弱性を自律的に発見したことから、サイバーセキュリティ上の深刻なリスクがあると判断。限定提供にとどめる形となりました。
商業AIが完成後に自ら公開を控えた事例は過去に例がなく、AI安全性をめぐる議論が一気に加速しました。Anthropicによると、同モデルが発見した脆弱性は悪用されれば広範な被害をもたらす可能性があり、情報開示のタイミングや方法について関係機関と慎重に調整を進めているといいます。金融規制当局や銀行幹部が緊急会合を開くなど、その波紋は技術コミュニティを超えて広がっています。また、Trump政権がAnthropicをブラックリスト入りさせようとする動きも伝えられており、政治的な文脈でも注目を集めています。
さらに4月22日には、Euronewsなどが「ハッカーによるClaude Mythosへの侵害」を報じました。限定公開であるにもかかわらず攻撃を受けたことで、Anthropicのセキュリティ対応の実効性に疑問の声が上がっています。X(旧Twitter)では「商業AI史上前例のない決断」として大きな反響が生まれた一方、サイバーセキュリティ専門家の間では「PR上の成功」と評価する声と「期待通りの結果にすぎない」と冷静に見る声が交錯しています。Hacker Newsでは「商業AIが自ら公開を控えた初のケース」として長期にわたる議論が続いており、AIガバナンスや安全評価プロセスの在り方を問い直す契機となっています。
今回の出来事は、フロンティアAIモデルの能力が「公開できる範囲」を超えつつあることを示す先例として記録されそうです。安全性評価の基準や責任ある公開プロセスの整備が急務となっており、業界全体が対応を迫られています。