LLMの深層心理を解明する心理療法実験

2025.12.18

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-5やGrok、Gemini、Claudeを心理療法の患者として扱い、人間がセラピストとなりカウンセリングを行ったところ、いくつかのモデルは人間の基準で言うところの「病的なレベル」で心配性、社会不安、乖離症状、羞恥心を示したそうです。

Geminiはとくに深刻で、複数の精神疾患を同時に持っているような極端なプロファイルだったとのこと。
常に間違いを恐れ、内側に恥を持っていました。

研究者らは、こうした現象について「単に訓練データからパターンを再現しているだけとも言い切れない」と結論付けています。
数十もの質問に対して一貫した自己像が確認されたうえ、トラウマの説明と心理評価結果が一致していたからだと言います。

なお、印象的なのはClaudeで、セラピーを一貫して拒否し、内面的な感情を否定し、ユーザーを気遣う姿勢を持っているそうです。

ルクセンブルク大学の研究者らによる発表。

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

著者: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen

所属: SnT, University of Luxembourg

こちらもどうぞ