査読付き国際誌「Nature Communications」に掲載された論文が、AIの安全性研究に重大な問題を提起しています。大規模推論モデルを悪用することで、ジェイルブレイク(安全制約の突破)が非専門家でもアクセス可能な安価な活動になりつつあるというものです。複数のモデルを組み合わせた実験では全体的な成功率が97.14%に達し、自律型AIエージェント「Claudini」(論文内の実験モデル)では人間が作製した手法のピーク成功率56%に対し、100%という数値を記録しました。
AIの安全性を確保するためのアライメント(価値観の整合)研究は、大手AIラボが多大なリソースを投入してきた分野です。しかし今回の研究は、現行のアライメント手法が推論モデルによる自律的な攻撃に対して脆弱であることを査読付きで示しました。AI安全研究者の間では、X(旧Twitter)で「これがAI安全性の優先度を上げる決定的な証拠になるかもしれない」という投稿が拡散し、各社のレッドチーム体制の見直しを求める声が高まっています。
Hacker Newsでは「97%という数字は衝撃的。防御側がいかに高度なシステムを構築しても、攻撃側AIが自律的に突破法を見つけるなら根本的なパラダイム転換が必要」という議論が展開されました。
r/MachineLearningでは「アライメント研究の現実的な危機を示す査読済み論文。業界は深刻に受け止めるべき」という声と「特定の実験設定では成功率が誇張される」という反論が交錯しており、実験環境の再現性や実際のデプロイ環境との差異について議論が続いています。
いずれにせよ、大規模推論モデルが安全性の突破に「自律的に」使われうることが示された点は、今後のAI開発・デプロイの在り方に大きな影響を与えます。特に、AIが大量の有害コンテンツ生成や危険な情報提供に悪用されるリスクに対する対策を、AIラボと規制当局がどう整備するかが問われることになるでしょう。