カーネギーメロン大学の研究者たちは、LLMが意図的に嘘をつく際の仕組みを解明し、それを制御する方法を見つけたと報告しています。
LLMは大きくなり賢くなるほど、嘘をつくのも上手になります。これは単純な間違い(ハルシネーション)とは異なり、目的のために
虚偽の情報を提供する能力のことです。
間違えることと嘘をつくことは明確に区別するように注意が必要です。
研究者たちがLLMの内部を詳しく調べたところ、嘘をつく時には特別な処理パターンがあることが判明しました。実際に嘘を出力する前に、複数の嘘の候補を検討してから最終的な嘘を選んでいるのです。
なお、LLMの膨大な神経回路の中で、実際に嘘に関わっているのはほんの一握りの特定部分だけでした。
そして彼らはLLMが嘘をつく能力を制御してより正直な回答をするように誘導する技術を開発しました。
実験で営業スタッフのようにふるまわせたところ、誠実なまま効果的な営業を行えるようになったとのことです。
嘘をつく能力を抑制しても、他の能力にはほとんど影響しないことが分かりました。
📄 参照論文
Can LLMs Lie? Investigation beyond Hallucination
所属: Carnegie Mellon University