AIDB Daily Papers
AI心理測定:大規模言語モデルの心理的推論を心理測定学的妥当性で評価する
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- AI心理測定という新しい分野を適用し、大規模言語モデルの心理的特性とプロセスを評価・解釈する研究を行った。
- 大規模言語モデルの複雑さを、心理測定手法を用いて評価することで、ブラックボックス化されたAIシステムの解釈可能性を高める。
- GPT-4やLLaMA-3は、先行モデルよりも優れた心理測定学的妥当性を示し、AI心理測定の有効性を裏付けた。
Abstract
The immense number of parameters and deep neural networks make large language models (LLMs) rival the complexity of human brains, which also makes them opaque ``black box'' systems that are challenging to evaluate and interpret. AI Psychometrics is an emerging field that aims to tackle these challenges by applying psychometric methodologies to evaluate and interpret the psychological traits and processes of artificial intelligence (AI) systems. This paper investigates the application of AI Psychometrics to evaluate the psychological reasoning and overall psychometric validity of four prominent LLMs: GPT-3.5, GPT-4, LLaMA-2, and LLaMA-3. Using the Technology Acceptance Model (TAM), we examined convergent, discriminant, predictive, and external validity across these models. Our findings reveal that the responses from all these models generally met all validity criteria. Moreover, higher-performing models like GPT-4 and LLaMA-3 consistently demonstrated superior psychometric validity compared to their predecessors, GPT-3.5 and LLaMA-2. These results help to establish the validity of applying AI Psychometrics to evaluate and interpret large language models.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: