研究者らがLLMの内部を覗き見た結果、ユーザーがメッセージにおける初めの方で示した感情は、モデルの返答が進んでも内部では記憶されていることが判明しました。
ただし、この持続時間は感情によって異なり、怒りや恐れは長く残る一方、喜びは素早く消えていきます。
これはLLMが役立つアシスタントとして訓練された結果そのような挙動に反映されるのだと推測されています。
また、モデルは処理の比較的早い段階で「これは悲しい文章だ」と理解し、その後のプロセスでその理解を使って適切な返答を生成しているようです。
そして「感情的になってください」と指示すると、モデルは悲しみに共感的に反応するようになります。
これらの一連の結果は、LLMが本当に感情を「感じている」わけではないものの、感情を非常に体系的に処理していることを示唆しています。
📄 参照論文
Decoding Emotion in the Deep: A Systematic Study of How LLMs Represent, Retain, and Express Emotion
所属: University of Southern California