LLMに感情を宿すニューロン回路の発見と制御

2025.10.152026.01.31

その他（上記に当てはまらない）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLM内部で怒りや悲しみ、喜びなど感情を表現する神経回路のようなものが存在していることを発見したとのことです。
MBZUAIと北京大学の研究者らによる報告。

こうした、いわば「感情回路」として実装されているニューロンは、LLMが感情を文章で表現する時に働くことが判明。

そして重要なニューロンはわずか数個程度であり、それらを操作するだけで感情表現を自在にコントロールできることが分かっています。

内部で感情に相当する何らかの構造を形成しているのであれば、モデルは単に訓練データの表面的なパターンを真似ているだけではないのかもしれません。

なお、安全性を重視したモデルでは喜びや驚きといったポジティブな感情は簡単に誘導できる一方、怒りや嫌悪などのネガティブな感情の誘導は意図的にブロックされていました。
AIの安全性設計が感情回路レベルで機能していることを示唆しています。

Do LLMs “Feel”? Emotion Circuits Discovery and Control

著者: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao 他

所属: MBZUAI, Peking University

関連記事