次回の更新記事:誤解を招きやすいAI用語6選、技術語なのに揺れる意味(公開予定日:2026年04月30日)
AIDB Daily Papers

AI心理測定:大規模言語モデルの心理的推論を心理測定学的妥当性で評価する

原題: AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities
著者: Yibai Li, Xiaolin Lin, Zhenghui Sha, Zhiye Jin, Xiaobing Li
公開日: 2026-03-11 | 分野: LLM 推論 機械学習 AI 評価 心理 言語

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • AI心理測定という新しい分野を適用し、大規模言語モデルの心理的特性とプロセスを評価・解釈する研究を行った。
  • 大規模言語モデルの複雑さを、心理測定手法を用いて評価することで、ブラックボックス化されたAIシステムの解釈可能性を高める。
  • GPT-4やLLaMA-3は、先行モデルよりも優れた心理測定学的妥当性を示し、AI心理測定の有効性を裏付けた。

Abstract

The immense number of parameters and deep neural networks make large language models (LLMs) rival the complexity of human brains, which also makes them opaque ``black box'' systems that are challenging to evaluate and interpret. AI Psychometrics is an emerging field that aims to tackle these challenges by applying psychometric methodologies to evaluate and interpret the psychological traits and processes of artificial intelligence (AI) systems. This paper investigates the application of AI Psychometrics to evaluate the psychological reasoning and overall psychometric validity of four prominent LLMs: GPT-3.5, GPT-4, LLaMA-2, and LLaMA-3. Using the Technology Acceptance Model (TAM), we examined convergent, discriminant, predictive, and external validity across these models. Our findings reveal that the responses from all these models generally met all validity criteria. Moreover, higher-performing models like GPT-4 and LLaMA-3 consistently demonstrated superior psychometric validity compared to their predecessors, GPT-3.5 and LLaMA-2. These results help to establish the validity of applying AI Psychometrics to evaluate and interpret large language models.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事