AIDB Daily Papers
言語モデルはあなたのニーズを理解していない?:深い研究におけるパーソナライズ評価には実際のユーザーが必要
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 研究者は増え続ける論文数に対処するため、パーソナライズされた研究ツールMyScholarQAを開発した。
- MyScholarQAはユーザーの研究関心プロファイルを推測し、提案を行うが、LLM評価では検出できない課題が残る。
- 実際のユーザー調査でLLM評価では見過ごされる9つの課題を明らかにし、今後の研究ツール設計への教訓を得た。
Abstract
Deep Research (DR) tools (e.g. OpenAI DR) help researchers cope with ballooning publishing counts. Such tools can synthesize scientific papers to answer researchers' queries, but lack understanding of their users. We change that in MyScholarQA (MySQA), a personalized DR tool that: 1) infers a profile of a user's research interests; 2) proposes personalized actions for a user's input query; and 3) writes a multi-section report for the query that follows user-approved actions. We first test MySQA with NLP's standard protocol: we design a benchmark of synthetic users and LLM judges, where MySQA beats baselines in citation metrics and personalized action-following. However, we suspect this process does not cover all aspects of personalized DR users value, so we interview users in an online version of MySQA to unmask them. We reveal nine nuanced errors of personalized DR undetectable by our LLM judges, and we study qualitative feedback to form lessons for future DR design. In all, we argue for a pillar of personalization that easy-to-use LLM judges can lead NLP to overlook: real progress in personalization is only possible with real users.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: