AIDB Daily Papers
同じ結果でも道は違う:本番検索システムにおける人間とGUIエージェントの行動を比較するトレースレベルのフレームワーク
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLM駆動のGUIエージェントと人間の行動を、タスクの成果、クエリ、ナビゲーションで比較する評価フレームワークを提示。
- GUIエージェントはタスク成功率こそ人間並みだが、ナビゲーション戦略に違いがあり、行動レベルでのずれが明らかになった。
- 本番環境の検索システムでGUIエージェントをユーザーの代わりとして利用する際には、行動レベルの診断が重要となる。
Abstract
LLM-driven GUI agents are increasingly used in production systems to automate workflows and simulate users for evaluation and optimization. Yet most GUI-agent evaluations emphasize task success and provide limited evidence on whether agents interact in human-like ways. We present a trace-level evaluation framework that compares human and agent behavior across (i) task outcome and effort, (ii) query formulation, and (iii) navigation across interface states. We instantiate the framework in a controlled study in a production audio-streaming search application, where 39 participants and a state-of-the-art GUI agent perform ten multi-hop search tasks. The agent achieves task success comparable to participants and generates broadly aligned queries, but follows systematically different navigation strategies: participants exhibit content-centric, exploratory behavior, while the agent is more search-centric and low-branching. These results show that outcome and query alignment do not imply behavioral alignment, motivating trace-level diagnostics when deploying GUI agents as proxies for users in production search systems.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: