LLMの性格を心理測定で評価・分析

2025.05.17

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

AIが人間に近い思考や性格のようなものを見せ始めたことで、「人間らしい観点で評価する必要があるのでは？」という声が強まっています。

そこで心理測定学が注目されています。もともとは人間の性格などの“目に見えない特性”を数値化するアプローチですが、最近ではこれを
LLMの評価にも応用する試みが進んでいます。

たとえばGPTシリーズは「外向的で協調的、好奇心旺盛だけれど、神経質さは少ない」といった特徴が出るとの報告があります。

さらに面白いことに、他人の気持ちを理解する「心の理論」のテストでは、人間の子どもと同じかそれ以上のスコアを出すこともあります。

ただし、プロンプトの変化によって回答が大きく変わりがちであるという具体的な問題も無視できません。
また、そもそも人間のために作られたテストがAIにも適切なのか？という根本的な問いは存在します。

それでも、心理測定学の手法を活用することで、より人間的で信頼できる安全なAIシステムに近づける可能性も見えてきました。

つまり、AIが人間に近づくなかで、これをどう理解し、どう育てるか。その新たな指針として、心理学の知見が活用され始めているというわけです。
この流れはLLMを活用したサービスづくりをしている者たち全体にとって、重要な意味を持つかもしれません。

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

著者: Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song

所属: Peking University

こちらもどうぞ