次回の更新記事:誤解を招きやすいAI用語6選、技術語なのに揺れる意味(公開予定日:2026年04月30日)
AIDB Daily Papers

SkillTester:エージェントスキルの実用性と安全性を測るベンチマーク

原題: SkillTester: Benchmarking Utility and Security of Agent Skills
著者: Leye Wang, Zixing Wang, Anjie Xu
公開日: 2026-03-28 | 分野: 安全性 ベンチマーク セキュリティ AI ソフトウェア エージェント オープンソース 評価 自動化 ツール テスト 脆弱性

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • SkillTesterは、エージェントスキルの実用性と安全性を評価するツールとして開発された。
  • 比較ユーティリティ原則とユーザー視点の簡潔さを重視し、エージェントスキル品質保証の新たな基準を確立する。
  • 実行成果物を正規化し、ユーティリティスコア、セキュリティスコア、セキュリティステータスラベルを生成する。

Abstract

This technical report presents SkillTester, a tool for evaluating the utility and security of agent skills. Its evaluation framework combines paired baseline and with-skill execution conditions with a separate security probe suite. Grounded in a comparative utility principle and a user-facing simplicity principle, the framework normalizes raw execution artifacts into a utility score, a security score, and a three-level security status label. More broadly, it can be understood as a comparative quality-assurance harness for agent skills in an agent-first world. The public service is deployed at https://skilltester.ai, and the broader project is maintained at https://github.com/skilltester-ai/skilltester.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事