AIDB Daily Papers
MCPEval:AIエージェントモデルのための自動MCPベースの深層評価
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMエージェントの評価を自動化するMCPEvalというオープンソースフレームワークを提案した。
- 既存手法が抱える静的ベンチマークや人手によるデータ収集の限界を克服し、実用的な評価を可能にする。
- 5つの実世界ドメインでの実験により、MCPEvalがドメイン固有の性能を詳細に評価できることを示した。
Abstract
The rapid rise of Large Language Models (LLMs)-based intelligent agents underscores the need for robust, scalable evaluation frameworks. Existing methods rely on static benchmarks and labor-intensive data collection, limiting practical assessment. We introduce MCPEval, an open-source Model Context Protocol (MCP)-based framework that automates end-to-end task generation and deep evaluation of LLM agents across diverse domains. MCPEval standardizes metrics, seamlessly integrates with native agent tools, and eliminates manual effort in building evaluation pipelines. Empirical results across five real-world domains show its effectiveness in revealing nuanced, domain-specific performance. We publicly release MCPEval https://github.com/SalesforceAIResearch/MCPEval to promote reproducible and standardized LLM agent evaluation.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: