Anthropicは、SWE-Bench Verified(ソフトウェアエンジニアリングの標準ベンチマーク)で93.9%という前例のないスコアを記録した最新AIモデル「Claude Mythos」を、一般向けには公開しないことを正式に発表しました。代わりに「Project Glasswing」と名付けた限定プログラムとして、セキュリティ機関や研究機関など50の組織にのみアクセスを許可し、脆弱性の発見・修正に活用するとしています。
Anthropicによると、Claude MythosはAnthropicのフロンティアモデル「Opus 4.6」のSWE-Bench Verified 80.8%を13ポイント以上上回るパフォーマンスを持ちます。同社はこのモデルが高度なサイバー攻撃の支援に悪用されうる能力を持つと判断し、公開を見送った経緯があります。GPT-2以来、「危険すぎて公開できない」という理由で非公開となった初のモデルとして、AI安全コミュニティから広く注目されています。セキュリティ専門家のブルース・シュナイアー氏もブログで独立した考察を発表しており、モデル能力と公開判断のあり方についての議論が活発化しています。
X(旧Twitter)では、Opus 4.6との具体的なベンチマーク比較数値が大きく拡散し、「APIホーディング(囲い込み)」への批判や、クローズドアクセスによる新たなエリート層の誕生を危惧する声が噴出しました。一方、「Anthropicの巧みなPR戦略ではないか」と冷静に受け止める見方も少なくありません。Reddit(r/Anthropic、r/claude)では「二重利用(dual-use)AI能力のスケーリングへの不安」「非対称アクセスの不公平さ」への懸念が相次いで投稿されており、「証拠はまだ非公開でベンダーのデモは査読ではない」とする懐疑論も根強く残っています。
今回のProject Glasswingは、強力なAIを防衛・セキュリティ目的に特化して活用する「responsible scaling」の新しい実践例とも読み取れます。AI能力の向上が加速する中、どのモデルを・誰に・どのような条件で公開すべきかという問いは、業界全体が向き合う避けられないテーマになりつつあります。Anthropicの今回の決断が、他社の公開ポリシーにどう影響するかが注目されます。