← 2026-04-07
AI Security Community 2026-04-07 Source →

AnthropicがCMSの設定ミスで次世代モデル「Claude Mythos」の詳細を流出、自社が「前例のないサイバーセキュリティリスク」と政府に警告していた内容も

Anthropicが開発中の次世代フラッグシップモデル「Claude Mythos」(コードネーム:Capybara)の詳細情報が、公開CMSの設定ミスによって外部に流出していたことがCNNの報道で明らかになりました。流出した内容には、現行のClaude Opus 4.6を大幅に上回るサイバーセキュリティ能力に関する詳細な評価指標が含まれており、Anthropic自身が「前例のないサイバーセキュリティリスク」として政府高官に非公式で警告を行っていたことも記されていました。

モデル能力の詳細が意図せず公開に

流出したドキュメントによると、Claude MythosはCTF(Capture the Flag)形式のサイバーセキュリティ競技において既存AIモデルを大幅に上回るスコアを記録しており、特にリモートコード実行の発見・悪用タスクでの性能向上が著しいとされています。Anthropicは安全性評価(Safety Evaluation)プロセスの一環として能力を慎重に測定していたものとみられ、その評価資料が外部から閲覧可能な状態になっていました。

同社は発見次第ドキュメントを非公開にしましたが、すでに広く拡散した後でした。Anthropicはこの件についてコメントを控えていますが、関係者によると内部では重大なセキュリティインシデントとして扱われているとのことです。

「サイバーセキュリティリスクを訴えるブログ投稿を、セキュアでない場所に置いてしまうというアイロニー」というミームがX上で拡散し、Redditでは「最も皮肉なリークの方法」として話題を集めました。一方、Hacker Newsでは皮肉よりもモデルの能力評価指標そのものに注目が集まり、AIが本当に現在の防御インフラを超えられるのかという技術的議論が活発に展開されました。

このリークは、AIの能力向上と安全性管理のジレンマを改めて浮き彫りにしました。強力なモデルの開発情報をどこまで透明性を持って開示すべきか、またその情報自体をどう管理するかという問いは、今後のAI安全性の制度設計においても重要な課題となっていくでしょう。

関連リンク