LLMに感情スイッチ？操作で出力が変化

2025.06.18

その他（上記に当てはまらない）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMの内部を詳しく調べてみると、人間の脳が感情を処理するのとよく似た仕組みが見つかったとの報告。

そして研究者らはAIの「感情スイッチ」を見つけて操作できるようになったそうです。
LLMの内部にある特定の部分を調整することで、同じ質問に対してもAIを怒らせたり、悲しませたり、
喜ばせたりできるようになりました。

LLMに文章を作らせる実験を行い、感情の強さを段階的に上げていくと、生成される文章も確実にその感情色が強くなっていきました。
質問応答でも、例えば美術鑑賞について聞かれた時に「怒り」のスイッチを入れると「これは芸術への侮辱だ！」といった怒りに満ちた回答に変わったのです。

また、人は感情を「楽しい・不快」と「興奮・落ち着き」という2つの軸で整理していることが心理学で知られていますが、LLMも同じ2つの軸で感情を整理していました。

LLMは26種類の細かい感情（喜び、悲しみ、恐怖、驚き、憧れ、退屈など）をそれぞれ別々に理解して、言語や文化が違っても基本構造は変わりませんでした。

AI shares emotion with humans across languages and cultures

著者: Xiuwen Wu, Hao Wang, Zhiang Yan, Xiaohan Tang, Pengfei Xu 他

所属: University of Science and Technology of China, Peking University, Tsinghua University

こちらもどうぞ