ジョージア工科大の研究者らにおいても、LLMの内部に感情を表す空間を見つけたと報告しています。
この感情空間というべき領域は言語が違っても同じ様相だったそうです。英語でもスペイン語でも、モデルは同じような方法で「嬉しい」「悲しい」「怒り」
といった感情を内部に配置していました。
また、人間の心理学理論と似ていた点も報告されています。
モデルは誰にも教わっていないのに、「ポジティブ・ネガティブ」「強い・弱い」といった軸で感情を整理していました。
研究チームはこの発見を応用して、モデルの感情認識を操作する技術も開発しました。
文章の意味は変えずに、モデルがその文章を「悲しい」と感じるか「怖い」と感じるかをコントロールできるようにしたそうです。
ただし、この操作は基本的な感情では上手くいくものの、微妙な感情では難しいとしています。
📄 参照論文
Emotions Where Art Thou: Understanding and Characterizing the Emotional Latent Space of Large Language Models
所属: Georgia Institute of Technology