AIDB Daily Papers
計画の仕方は重要か?LLMウェブエージェントのための計画表現に関する実証研究
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMベースのウェブエージェントの計画能力の限界を調査し、計画表現の影響を評価する研究を行った。
- タスク難易度を自動分類し、4つの異なる計画表現(逐次サブゴール、物語、擬似コード、チェックリスト)を評価した点が新しい。
- 計画の形式と基盤となるLLMの両方が、ウェブエージェントの堅牢性とタスク成功率に大きく影響することが明らかになった。
Abstract
Despite recent advances, LLM-based web agents still struggle with limited exploration, omission of critical steps, and sensitivity to task constraints. Prior work suggests that many of these failures stem from weaknesses in planning, yet the impact of alternative natural language plan representation remains unexplored. To address this, we introduce PlanAhead, a static planner-executor framework that evaluates the impact of plan representation in agent performance. We first automatically categorize WebArena tasks into 3 difficulty levels, enabling consistent difficulty grading without human annotation. Then we systematically evaluate 4 different plan representations on the tasks categorized as hard: sequential subgoals, narrative, pseudocode, and checklist; across different families of multimodal LLM powered agents (OpenAI, Alibaba, and Google). To account for stochastic variability, we introduce two novel evaluation metrics: Achievement Rate (AR) and Solved-Task Consistency (STC). Our results show that both, the plan formulation and the underlying LLM generating the plan, significantly influence web-agent robustness and task success.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: