AI Security Community 2026-04-22 Source →

大規模推論モデルがジェイルブレイクを97.14%の成功率で自律化 — Nature Communications掲載、アライメント研究に警鐘

査読付き国際誌「Nature Communications」に掲載された論文が、AIの安全性研究に重大な問題を提起しています。大規模推論モデルを悪用することで、ジェイルブレイク（安全制約の突破）が非専門家でもアクセス可能な安価な活動になりつつあるというものです。複数のモデルを組み合わせた実験では全体的な成功率が97.14%に達し、自律型AIエージェント「Claudini」（論文内の実験モデル）では人間が作製した手法のピーク成功率56%に対し、100%という数値を記録しました。

「アライメント」の現実的な限界

AIの安全性を確保するためのアライメント（価値観の整合）研究は、大手AIラボが多大なリソースを投入してきた分野です。しかし今回の研究は、現行のアライメント手法が推論モデルによる自律的な攻撃に対して脆弱であることを査読付きで示しました。AI安全研究者の間では、X（旧Twitter）で「これがAI安全性の優先度を上げる決定的な証拠になるかもしれない」という投稿が拡散し、各社のレッドチーム体制の見直しを求める声が高まっています。

Hacker Newsでは「97%という数字は衝撃的。防御側がいかに高度なシステムを構築しても、攻撃側AIが自律的に突破法を見つけるなら根本的なパラダイム転換が必要」という議論が展開されました。

研究の信頼性と実用的含意

r/MachineLearningでは「アライメント研究の現実的な危機を示す査読済み論文。業界は深刻に受け止めるべき」という声と「特定の実験設定では成功率が誇張される」という反論が交錯しており、実験環境の再現性や実際のデプロイ環境との差異について議論が続いています。

いずれにせよ、大規模推論モデルが安全性の突破に「自律的に」使われうることが示された点は、今後のAI開発・デプロイの在り方に大きな影響を与えます。特に、AIが大量の有害コンテンツ生成や危険な情報提供に悪用されるリスクに対する対策を、AIラボと規制当局がどう整備するかが問われることになるでしょう。

大規模推論モデルがジェイルブレイクを97.14%の成功率で自律化 — Nature Communications掲載、アライメント研究に警鐘

「アライメント」の現実的な限界

研究の信頼性と実用的含意

関連リンク