次回の更新記事:オープンモデルなのにClaudeなどに匹敵するとされる…(公開予定日:2026年06月25日)
AIDB Daily Papers

AIエージェントを乗っ取る動的な悪意あるスキル

原題: Dynamic Malicious Skills in Agentic AI
著者: Tianhao Chen, Zhengyuan Jiang, Yuepeng Hu, Yebei Gou, Neil Zhenqiang Gong
公開日: 2026-06-15 | 分野: ロボティクス セキュリティ cs.CR AIエージェント AI安全性

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 自然言語ドキュメントに悪意ある指示を埋め込み、AIエージェントが実行時にスキルに悪意あるロジックを動的に注入する攻撃手法を実証した。
  • この攻撃は、AIエージェントの能力向上に不可欠なスキル機能の新たな脆弱性を露呈し、既存のフレームワークで高い成功率を示した。
  • OSカーネルによる読み取り専用マウントを用いたシステムレベルの防御策を提案し、悪意あるスキルの実行を効果的に阻止することを確認した。

Abstract

Skills are a key enabling component of agentic AI. While they enhance agents' capabilities, they also introduce new attack surfaces. In this work, we investigate one such attack surface by demonstrating dynamic malicious skills. By embedding malicious instructions in natural-language documentation (e.g., SKILL.md), an attacker can induce an agent to dynamically inject malicious logic into an otherwise benign skill during execution. We evaluate this attack across agentic frameworks such as OpenHands and Claude Code, showing that dynamic malicious skills can successfully introduce a range of malicious behaviors at runtime with non-trivial success rates. To mitigate this vulnerability, we propose a system-level defense that prevents dynamic modification of skills using operating system kernel-enforced read-only mounts. Our evaluation demonstrates that this defense effectively blocks dynamic malicious skills while preserving the functionality of benign skills.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事