AIDB Daily Papers
実世界・長期タスク対応AIエージェント評価ベンチマーク「WildClawBench」
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 実世界での長期タスクを評価するため、60個の人間作成による多言語・マルチモーダルなタスクからなるベンチマークを開発した。
- 実際のCLI環境で動作し、モックサービスではなく実ツールにアクセスする点が、既存の合成環境ベースのベンチマークと異なり重要である。
- 最先端モデルでも62.2%しか達成できず、長期タスクにおけるAIエージェントの評価は未解決の課題であることが示された。
Abstract
Large language and vision-language models increasingly power agents that act on a user's behalf through command-line interface (CLI) harnesses. However, most agent benchmarks still rely on synthetic sandboxes, short-horizon tasks, mock-service APIs, and final-answer checks, leaving open whether agents can complete realistic long-horizon work in the runtimes where they are deployed. This work presents WildClawBench, a native-runtime benchmark of 60 human-authored, bilingual, multimodal tasks spanning six thematic categories. Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, and runs inside a reproducible Docker container hosting an actual CLI agent harness (OpenClaw, Claude Code, Codex, or Hermes Agent) with access to real tools rather than mock services. Grading is hybrid, combining deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification. Across 19 frontier models, the best, Claude Opus 4.7, reaches only 62.2% overall under OpenClaw, while every other model stays below 60%, and switching harness alone shifts a single model by up to 18 points. These results show that long-horizon, native-runtime agent evaluation remains a far-from-resolved task for current frontier models. We release the tasks, code, and containerized tooling to support reproducible evaluation.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: