研究者らがLLMの内部を観察したところ、感情を判定するとき「文法→意味→感情」という3段階で進んでいました。
また「怒り」「喜び」「恐怖」には強く反応するのに対し、「嫌悪」に特化して反応する内部表現はほぼ存在せず、モデルは概念をつなぎ合わせて「嫌悪」を推測していたとのこと。
なお、「驚き」も内部表現は少なく、他の感情を判定するときに誤って活性化しやすいことが分かっています。
例として、「飛行機が乱気流に巻き込まれた」という文を読ませると、序盤の層では句読点や文の構造に反応し、中盤で「緊急事態」「アクション場面」といった意味に反応、終盤になってようやく「恐怖」に反応する、という流れが観察されたそうです。
LLMは感情を「丸ごと一気に」理解しているように見えて、内部では律儀に段階を踏んでいたようです。
検証に使用したモデルはGemma-2-2B、Gemma-2-9B、Llama-3.1-8Bであることに注意。