LLM内部で怒りや悲しみ、喜びなど感情を表現する神経回路のようなものが存在していることを発見したとのことです。
MBZUAIと北京大学の研究者らによる報告。
こうした、いわば「感情回路」として実装されているニューロンは、LLMが感情を文章で表現する時に働くことが判明。
そして重要なニューロンはわずか数個程度であり、それらを操作するだけで感情表現を自在にコントロールできることが分かっています。
内部で感情に相当する何らかの構造を形成しているのであれば、モデルは単に訓練データの表面的なパターンを真似ているだけではないのかもしれません。
なお、安全性を重視したモデルでは喜びや驚きといったポジティブな感情は簡単に誘導できる一方、怒りや嫌悪などのネガティブな感情の誘導は意図的にブロックされていました。
AIの安全性設計が感情回路レベルで機能していることを示唆しています。
📄 参照論文
Do LLMs “Feel”? Emotion Circuits Discovery and Control
所属: MBZUAI, Peking University