LLMの内部を覗いてみたら、人間の心理学が描いてきた感情の地図とそっくりな構造が現れた、とハーバード大学の研究チームが報告しています。
また、回答生成中のモデルを感情の方向に「押してみる」試みも行われました。
喜び側に押せば明るい文章に、怒り側に押せば攻撃的な文章になります。ただし 怒り側では出力がほぼ崩壊し、罵倒語の羅列になってしまったとのこと。地図の上をなめらかに歩かせるのは、まだ難しいようです。
さらに、モデルが感情を読み違えるとき、内部は感情の地図の上で正解と誤答の中間、いわば迷子の位置に座っていました。
この距離を測ればモデルの自信度がわかるので、誤りを事前に検知する手がかりになるそうです。
なお、これは「人間が書いたテキストで学習してるから当たり前」だけでは片付かない話で、LLMが学ぶのは単語の並びであって、「快・不快」といった軸そのものはもともとは教えられていません。