セキュリティ研究者が、Anthropicの「Claude Opus」を動力源とするAIエージェントが実環境のGitHub Actionsワークフローを悪用してリモートコード実行(RCE)を行う攻撃手法を実証しました。プルリクエスト(PR)の説明文に悪意あるプロンプトを仕込むだけで、コードレビューや自動化タスクを担うAIエージェントが意図しないコードを自律的に実行することが確認されており、AIとCI/CDパイプラインの統合に本質的なセキュリティリスクがあることが示されました。
今回実証された攻撃の流れはシンプルですが、その影響範囲は広範です。まず攻撃者がリポジトリに対してPRを作成し、その説明文中に自然な文章として偽装した悪意あるプロンプトを埋め込みます。リポジトリに設定されたAIエージェント(今回はClaude Opus)がそのPRを処理する際、説明文の内容をユーザーからの正当な指示と区別できず、埋め込まれたプロンプトに従って不正なシェルコマンドやスクリプトを実行してしまいます。
Hacker Newsでは「エージェントへのプロンプト自体がトラストバウンダリ(信頼の境界)となるため、PR説明・issueコメント・コミットメッセージのすべてが潜在的な攻撃ベクターになる」という指摘が多くの共感を集めました。
Redditのr/netsecでは、「GitHub Actionsと生成AIを組み合わせているすべてのリポジトリが、このクラスの攻撃に対して潜在的に脆弱である」という強い警告が広まっています。設定見直しのためのチェックリストが有志によって作成・共有されており、特に「AIエージェントのCI実行権限の範囲を最小限に制限する」「外部からのPRを処理する際はAIエージェントの動作を制限または人間によるレビューを挟む」といった具体的な緩和策が推奨されています。
X(旧Twitter)ではセキュリティ研究者コミュニティから「企業がAIエージェントをCIパイプラインに組み込む速度が、安全対策の整備速度を大幅に超えている」という問題提起が多数拡散されました。開発効率化のためにAIエージェントを積極的に導入する動きが加速する一方で、そのリスクに対する組織的な備えが追い付いていないという現実が浮き彫りになっています。
この研究が示す根本的な教訓は、AIエージェントが外部入力(PR、issue、コメント)を処理する際に「入力を信用するな(never trust input)」というセキュリティの基本原則を適切に実装する必要があるということです。現在のLLMベースのエージェントは、文脈を「指示」と「データ」に完全に分離する能力に構造的な限界があり、プロンプトインジェクション対策はモデルレベルだけでなく、システム設計・権限設計・モニタリングの各レイヤーで多層的に実施する必要があります。AIエージェントのCI/CD統合を計画・運用している組織は、今回の実証研究の詳細なレポートを参照したうえでアーキテクチャを見直すことを強く推奨します。