AIDB Daily Papers
個人版チューリングテスト:LLMによる個人シミュレーションの可能性と限界
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、LLMを用いて個人の会話をシミュレーションし、その精度を検証する「個人版チューリングテスト」を提案した。
- 10年以上にわたる個人のメッセージ履歴を用いて、ファインチューニング、RAG、メモリベースなど、様々なLLMのシミュレーション手法を比較した点が新しい。
- 結果、現行のLLMは個人版チューリングテストをクリアできなかったが、個人の意見や好みを反映する点でRAGやメモリベースの手法が有効であることが示された。
Abstract
Large Language Models (LLMs) have demonstrated remarkable human-like capabilities, yet their ability to replicate a specific individual remains under-explored. This paper presents a case study to investigate LLM-based individual simulation with a volunteer-contributed archive of private messaging history spanning over ten years. Based on the messaging data, we propose the "Individual Turing Test" to evaluate whether acquaintances of the volunteer can correctly identify which response in a multi-candidate pool most plausibly comes from the volunteer. We investigate prevalent LLM-based individual simulation approaches including: fine-tuning, retrieval-augmented generation (RAG), memory-based approach, and hybrid methods that integrate fine-tuning and RAG or memory. Empirical results show that current LLM-based simulation methods do not pass the Individual Turing Test, but they perform substantially better when the same test is conducted on strangers to the target individual. Additionally, while fine-tuning improves the simulation in daily chats representing the language style of the individual, retrieval-augmented and memory-based approaches demonstrate stronger performance on questions involving personal opinions and preferences. These findings reveal a fundamental trade-off between parametric and non-parametric approaches to individual simulation with LLMs when given a longitudinal context.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: