LLM全体の0.001%程度の敏感なパラメータが少し書き換わるだけで、「他人が何を考えているかを推測する」力が大きく低下してしまうということが報告されています。
出力の流暢さはほぼ変わらず、文章はふつうに読めるままです。
基本的な賢さが維持されたまま「心の理論」の能力が劣化する現象が起きうるのは興味深い発見です。
ただし、一部の言語理解も同時に悪化するそうです。
📄 参照論文
How large language models encode theory-of-mind: a study on sparse parameter patterns
所属: Stanford University, Princeton University, University of Minnesota Twin Cities