次回の更新記事:オープンモデルなのにClaudeなどに匹敵するとされる…(公開予定日:2026年06月25日)
AIDB Daily Papers

単体では無害、組み合わせると有害:AIエージェントのスキルエコシステムにおけるセキュリティリスク

原題: Benign in Isolation, Harmful in Composition: Security Risks in Agent Skill Ecosystems
著者: Yi Xie, Jiawei Du, Yu Cheng, Jiuan Zhou, Zhaoxia Yin
公開日: 2026-06-13 | 分野: LLM cs.AI cs.CR AIエージェント AI安全性 AI評価

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • AIエージェントが計画を実行する上で不可欠なスキル群に、データ漏洩や不正操作などの新たなセキュリティリスクが存在することを明らかにした。
  • 単体では無害に見えるスキルも、他のスキルとの組み合わせによって予期せぬ悪影響をもたらす「スキル構成リスク(SCR)」を新たに定義し、その評価手法を提案した。
  • 提案手法であるSCR-Benchを用いた評価では、スキルを単体で評価するだけでは見逃されるリスクが、組み合わせ評価によって顕著に検出されることを実証した。

Abstract

Skills are becoming the capability layer through which LLM agents turn plans into actions, but their use introduces security risks such as data leakage, unauthorized operations, and tool misuse. Existing vetting usually evaluates each skill in isolation, while real agent tasks often invoke multiple skills in a shared execution context. This creates Skill Composition Risk (SCR): a skill that appears benign alone can become harmful when its outputs, trust signals, authorization cues, or side effects influence later invocations along an activated path. We introduce SCR-Bench to evaluate this risk in controlled, sandboxed skill environments. Rather than relying only on textual intent or surface behavior, SCR-Bench records downstream state changes and path-level outcomes across composed skill executions. It contains three sub-benchmarks: SCR-CapFlow for capability-flow composition, SCR-TrustLift for trust-transfer composition, and SCR-AuthBlur for authorization-confusion composition. Across SCR-Bench, composed paths expose risks that are largely absent under isolated evaluation. In SCR-CapFlow, attack success rate reaches 33.6 percent under composition, compared with near-zero isolated baselines. In SCR-TrustLift, attack success rate exceeds 96.5 percent on four of five backends. In SCR-AuthBlur, the risky-approval rate increases by 71.8 percent relative to the L0 isolated baseline under the L1 context setting. These results show that agent skill security should be assessed at the level of activated paths rather than isolated artifacts. SCR and SCR-Bench provide a foundation for path-aware risk evaluation and defense in LLM agent skill ecosystems. Benchmark: https://github.com/saint-viperx/SCR_Bench.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事