AIDB Daily Papers
LLMによるUX評価の「実行可能性」を測るベンチマーク「UXBench」
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMが生成するUX評価の信頼性と実行可能性を測るためのベンチマーク「UXBench」を提案した。
- 本研究は、LLMがUX評価を行う際の「実行可能性」という新規の観点から、その能力を体系的に評価する。
- 実験の結果、LLMはUX評価においてモデルや評価対象のUIによって性能に差があり、評価の実行可能性にばらつきがあることが明らかとなった。
Abstract
Large language models (LLMs) are increasingly deployed as UX judges that inspect interfaces, diagnose usability problems, and propose repairs. Yet no controlled benchmark measures whether the resulting critiques are reliable and actionable across heterogeneous product surfaces. We introduce UXBench, a benchmark for evaluating LLMs as interaction-grounded UX judges. UXBench comprises local-first runnable web fixtures spanning ten product-surface families, paired with coverage-gated browser exploration that forces models to collect interaction evidence before reporting. Each judge model produces a structured UX report over seven rubric dimensions; report quality is measured by whether a fixed downstream repair agent can improve the interface based on the critique. We evaluate eight frontier models under both an automated repair-lift protocol and a blind human validation study. Results show that UX judging is neither saturated nor one dimensional: models differ meaningfully in report actionability, exhibit distinct rubric-level repair signatures, vary in fixture-level reliability, and trade leadership across surface categories
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: