LLMの「心の理論」脆弱性、わずかな改変で発現

2025.09.07

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLM全体の0.001%程度の敏感なパラメータが少し書き換わるだけで、「他人が何を考えているかを推測する」力が大きく低下してしまうということが報告されています。
出力の流暢さはほぼ変わらず、文章はふつうに読めるままです。

基本的な賢さが維持されたまま「心の理論」の能力が劣化する現象が起きうるのは興味深い発見です。
ただし、一部の言語理解も同時に悪化するそうです。

How large language models encode theory-of-mind: a study on sparse parameter patterns

著者: Yuheng Wu, Wentao Guo, Zirui Liu, Heng Ji, Zhaozhuo Xu & Denghui Zhang

所属: Stanford University, Princeton University, University of Minnesota Twin Cities

関連記事