LLM内部に報酬系に類似する反応パターン、予想外の正解で活性化

2026.02.042026.02.07

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

人間の脳にある「ドーパミンニューロン」に相当するものもLLMの内部に見つかったと報告されています。
これは予想より良い結果が得られると活性化し、期待はずれだと抑制されると考えられており、LLMの中にも、全く同じパターンで反応するニューロンが存在していたそうです。
難しいと思っていた問題が解けた瞬間に活性化し、簡単だと思っていたのに間違えた瞬間に活動が落ち込む様子が観察されています。

また、人間の脳には「報酬系」と呼ばれる神経回路があり、LLMの内部にも、これとそっくりな回路も形成されていることが発見されました。
「報酬系」は何か良いことが起きると快感を感じたり、予想外の出来事に驚いたりする仕組みです。
ごく少数の特別なニューロンが「この問題は解けそうだ」「これは難しそうだ」という予測を担っています。全体の1%にも満たない回路ですが、これをオフにすると性能がガクッと落ちてしまいました。

こうした報酬系は、モデルのサイズや設計が違っても、与える課題が違っても、普遍的に存在していることが分かったとのことです。

清華大学大学とスタンフォード大学の研究者らによる論文。

なお、LLMが快・不快を「感じる」話ではなく、何らかのタスクを行った際に結果が予想より良かった／悪かったときに反応する信号パターンが内部にある、というふるまいについての研究です。脳で例えると報酬系と機能的に似た現象であると説明されており、その表現を参考にしてお伝えしています。

📄 参照論文

Sparse Reward Subsystem in Large Language Models

著者: Guowei Xu, Mert Yuksekgonul, James Zou

所属: Tsinghua University, Stanford University

📎 論文を読む（www.arxiv.org）

X（Twitter）で見る

LLM内部に報酬系に類似する反応パターン、予想外の正解で活性化

📄 参照論文

こちらもどうぞ

🔒 ソフトウェアの新しい形　LLMネイティブアプリケーションとは

🔒 研究者たちがAIエージェントのセキュリティを本気で試してみた2週間の記録

📄 参照論文

📚 関連記事

こちらもどうぞ

🔒 ソフトウェアの新しい形 LLMネイティブアプリケーションとは

🔒 研究者たちがAIエージェントのセキュリティを本気で試してみた2週間の記録

🔒 ソフトウェアの新しい形　LLMネイティブアプリケーションとは