3月26日、AnthropicのCMS(コンテンツ管理システム)の設定ミスにより、非公開モデル「Claude Mythos」の詳細情報が外部に漏洩しました。Fortuneの報道によると、Claude MythosはOpusを超える全く新しい階層のモデルとして開発中で、「サイバー能力において他のモデルを大幅に凌駕する」と内部ドキュメントに記述されていたとされています。Anthropicはこの能力水準に懸念を抱き、政府高官に対して大規模なサイバー攻撃リスクの増大を私的に警告していたことも明らかになりました。
この情報漏洩が引き起こした議論の核心は、技術的な詳細よりもAnthropicのスタンスの矛盾にあります。Hacker Newsでは「AIが前例のないサイバーセキュリティリスクをもたらすと自認する会社がそれを作り続けている」という構造的な問題提起コメントが多数のポイントを獲得しました。X(旧Twitter)上では「自社が作ったモデルのリスクを政府に警告するという状況に矛盾を感じる」という批判的意見と、「リスクを認識した上で透明性をもって関係機関に情報提供するのは責任ある行動」と評価する声が二分する形になっています。
Redditのr/MachineLearningでは、Claude Mythosの上位に「Capybara」と呼ばれるさらに高位のモデル階層の存在も言及されていたという情報も流出しており、Anthropicのモデルロードマップ全体についての推測が活発化しています。Anthropicは「責任あるスケーリングポリシー(RSP)」に基づいてモデル開発を進めているとしており、高リスクの能力を持つモデルについては政府との連携を事前に行うという姿勢を示しています。
Claude Mythosの漏洩は、フロンティアAI(最先端AI)開発の根本的なジレンマを社会に突きつけました。能力が高いほど潜在的なリスクも大きくなるにもかかわらず、競争上の理由から開発を止めることが難しいという構造は、Anthropicだけでなく業界全体が抱える問題です。Anthropicが政府高官への私的警告という形を選んだことは、従来の「AI安全性は自社で管理する」という姿勢から、規制当局との協調へシフトしている証左とも読めます。今後、Claude Mythosの正式な位置づけや、政府との情報共有の枠組みについてAnthropicがどのような透明性を示すかに注目が集まっています。