LLMに感情の地図？内部構造を可視化・操作

2026.04.11

その他（上記に当てはまらない）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMの内部を覗いてみたら、人間の心理学が描いてきた感情の地図とそっくりな構造が現れた、とハーバード大学の研究チームが報告しています。

また、回答生成中のモデルを感情の方向に「押してみる」試みも行われました。
喜び側に押せば明るい文章に、怒り側に押せば攻撃的な文章になります。ただし怒り側では出力がほぼ崩壊し、罵倒語の羅列になってしまったとのこと。地図の上をなめらかに歩かせるのは、まだ難しいようです。

さらに、モデルが感情を読み違えるとき、内部は感情の地図の上で正解と誤答の中間、いわば迷子の位置に座っていました。
この距離を測ればモデルの自信度がわかるので、誤りを事前に検知する手がかりになるそうです。

なお、これは「人間が書いたテキストで学習してるから当たり前」だけでは片付かない話で、LLMが学ぶのは単語の並びであって、「快・不快」といった軸そのものはもともとは教えられていません。

こちらもどうぞ