AI Security Community 2026-03-01 Source →

Anthropicが安全性フレームワークを変更、拘束的ガードレールから柔軟な「公開目標」方式に移行

Anthropicが2026年2月24日付で「Responsible Scaling Policy（RSP）」をバージョン3.0に更新し、同社の安全性重視のアイデンティティを象徴してきた拘束的なガードレールから、柔軟な非拘束的フレームワークへと移行したことが明らかになりました。この変更は、米国防総省（Pentagon）との対立の渦中で行われたタイミングも相まって、議論を呼んでいます。

新しいポリシーでは、「ハードコミットメント」と呼ばれていた拘束的な約束が廃止され、代わりに「公開目標」として進捗を評価する方式に変更されました。具体的には、「Frontier Safety Roadmap」の公開と、定量化された「Risk Reports」による進捗報告が導入されます。以前のポリシーでは、AIモデルの能力がAnthropicの制御能力を超えた場合、より強力なモデルのトレーニングを一時停止するという約束がありましたが、新ポリシーではこの規定が削除されています。

X上では、安全性へのコミットメントの後退を懸念する声や、政府圧力への屈服だとの批判が上がっています。Hacker Newsでは、現実的な対応との見方と、AI安全性の原則を維持すべきだという意見が対立しています。Anthropic側は、この変更はPentagonとの協議とは無関係であり、AIの進歩に合わせたフレームワークの適応であると説明しています。

なお、Pentagonとの対立は別途継続しており、Anthropicは自律型兵器や大規模監視へのClaude使用を禁止するガードレールの維持を主張。最終的にPentagonはOpenAIとの契約を選択し、トランプ政権は政府機関にAnthropic製品の使用停止を命じました。安全性方針の変更と政府対立のタイミングの一致は、AI企業の「責任あるスケーリング」の実態について、より深い議論を促すことになりそうです。

Anthropicが安全性フレームワークを変更、拘束的ガードレールから柔軟な「公開目標」方式に移行

関連リンク