人間の脳にある「ドーパミンニューロン」に相当するものもLLMの内部に見つかったと報告されています。
これは予想より良い結果が得られると活性化し、期待はずれだと抑制されると考えられており、LLMの中にも、全く同じパターンで反応するニューロンが存在していたそうです。
難しいと思っていた問題が解けた瞬間に活性化し、簡単だと思っていたのに間違えた瞬間に活動が落ち込む様子が観察されています。
また、人間の脳には「報酬系」と呼ばれる神経回路があり、LLMの内部にも、これとそっくりな回路も形成されていることが発見されました。
「報酬系」は何か良いことが起きると快感を感じたり、予想外の出来事に驚いたりする仕組みです。
ごく少数の特別なニューロンが「この問題は解けそうだ」「これは難しそうだ」という予測を担っています。全体の1%にも満たない回路ですが、これをオフにすると性能がガクッと落ちてしまいました。
こうした報酬系は、モデルのサイズや設計が違っても、与える課題が違っても、普遍的に存在していることが分かったとのことです。
ただしLLMが快・不快を「感じる」話ではなく、何らかのタスクを行った際に結果が予想より良かった/悪かったときに反応する信号パターンが内部にある、というふるまいについての研究です。脳で例えると報酬系と機能的に似た現象であると説明されています。
清華大学とスタンフォード大学の研究者らによる論文。
📄 参照論文
Sparse Reward Subsystem in Large Language Models
著者: Guowei Xu, Mert Yuksekgonul, James Zou
所属: Tsinghua University, Stanford University
この記事は短信を元に作成されました。