次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMの「心の理論」脆弱性、わずかな改変で発現

推論・思考(論理推論、Chain-of-Thought、数学的推論、問題解決)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLM全体の0.001%程度の敏感なパラメータが少し書き換わるだけで、「他人が何を考えているかを推測する」力が大きく低下してしまうということが報告されています。
出力の流暢さはほぼ変わらず、文章はふつうに読めるままです。

基本的な賢さが維持されたまま「心の理論」の能力が劣化する現象が起きうるのは興味深い発見です。
ただし、一部の言語理解も同時に悪化するそうです。

📄 参照論文

How large language models encode theory-of-mind: a study on sparse parameter patterns

著者: Yuheng Wu, Wentao Guo, Zirui Liu, Heng Ji, Zhaozhuo Xu & Denghui Zhang

所属: Stanford University, Princeton University, University of Minnesota Twin Cities

関連記事