← 2026-06-09
AI Security Community 2026-06-09 Source →

チェーンオブソートが「抜け穴」に——AIのジェイルブレイク手法が高度化、画像解像度を下げるだけで安全フィルターを突破

AIの思考プロセスそのものが攻撃の入り口になり得る——2026年6月のセキュリティ研究で、大規模言語モデルの「チェーンオブソート(CoT)」機能を悪用したジェイルブレイク手法と、マルチモーダルモデルに対して画像解像度を下げるだけで有害コンテンツの安全フィルターを回避できる脆弱性が相次いで報告されました。AI安全研究機関のAdversaなどが6月のセキュリティリソースとしてまとめています。

チェーンオブソート悪用の仕組み

チェーンオブソートとは、モデルが回答を導く前に「考える手順」を段階的に展開する機能で、推論精度の向上に貢献するとして多くのフロンティアモデルに搭載されています。研究者らによると、この思考過程の各ステップは安全フィルターの監視が相対的に薄く、有害な指示を分解して段階的に入力することで最終的な出力を誘導できるというのです。整合性訓練(RLHF)が最終出力の抑制に注力する一方で、中間ステップの監視が手薄になっている点が構造的な弱点として指摘されています。

マルチモーダルモデルへの攻撃手法も新たな形で確認されました。画像を入力として受け付けるモデルに対し、解像度を意図的に低下させた画像を渡すことで、高解像度用に最適化された安全フィルターをすり抜けられることが判明しています。r/netsecでは「解像度を下げるだけでフィルターを回避できるとは驚き。RLHF後のモデルの脆弱性設計を根本から見直すべきでは」という議論が白熱しました。

X(旧Twitter)では「AIが賢くなるほどジェイルブレイクも高度化する。いたちごっこに終わりはないのか」という悲観的なコメントが広く共感を呼ぶ一方、Hacker Newsでは「整合性訓練の失敗パターンが特定可能という研究は重要。防御側にとって具体的な改善指針になる可能性がある」と建設的な見方も出ています。

モデル開発者への影響と今後の対策

一連の研究は、現在の整合性訓練アプローチが「最終出力の表面的な制御」に偏っている限界を示しています。中間推論ステップの監視強化、マルチモーダル入力の前処理における解像度正規化、そして攻撃パターンのデータベース共有といった対策が今後の論点になるとみられます。AI安全コミュニティにとって、新機能の追加が新たな攻撃面を生み出すという構造的な課題が改めて浮き彫りになった格好です。

関連リンク