AIDB Daily Papers
大規模言語モデルは、訓練後に人間らしさが低下する
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 大規模言語モデルの人間行動への一致度を測る新データセット「Psych-201」を開発した。
- モデルを「有用なアシスタント」にするための訓練が、人間行動との一致度を一貫して低下させることを発見した。
- 最新世代のモデルでは、基盤モデルの性能向上にもかかわらず、人間らしさとの乖離が拡大している。
Abstract
Large language models (LLMs) are increasingly used as surrogates for human participants, but it remains unclear which models best capture human behavior and why. To address this, we introduce Psych-201, a novel dataset that enables us to measure behavioral alignment at scale. We find that post-training -- the stage that turns base models into useful assistants -- consistently reduces alignment with human behavior across model families, sizes, and objectives. Moreover, this misalignment widens in newer model generations even as base models continue to improve. Finally, we find that persona-induction -- a popular technique for eliciting human-like behavior by conditioning models on participant-specific information -- does not improve predictions at the level of individuals. Taken together, our results suggest that the very processes that are currently employed to turn LLMs into useful assistants also make them less accurate models of human behavior.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: