LLM仕上げ訓練で「人間らしさ」喪失

2026.05.12

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「指示に従う」「論理的に推論する」といった追加訓練を受けた”賢くて便利”なLLMは、むしろ人間らしさから遠ざかっている。
多数の研究機関による国際共同チームの報告です。

素のモデル自体は世代を追うごとに人間らしさを増しています。それなのに、仕上げ訓練を加えた瞬間に乖離が生じ、新しい世代ほどそのギャップが大きくなっているようです。

通常、LLMは大量のテキストで学習した素の状態から、追加訓練を経て、使いやすくて便利なアシスタントに仕上げられてます。
「正しい答え」を出すよう最適化される過程で、人間特有の直感や判断のクセが上書きされてしまうためと考えられています。

もしかすると、精神病患者を演じさせたり、政策への反応を予測したりと、AIを人間の代理として使う用途では、今普及している（いわゆる”賢い”）AIは不向きかもしれない、という知見につながります。

こちらもどうぞ