LLM虚偽応答のメカニズム解明と制御技術

2025.09.052026.01.31

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

カーネギーメロン大学の研究者たちは、LLMが意図的に嘘をつく際の仕組みを解明し、それを制御する方法を見つけたと報告しています。

LLMは大きくなり賢くなるほど、嘘をつくのも上手になります。これは単純な間違い（ハルシネーション）とは異なり、目的のために
虚偽の情報を提供する能力のことです。
間違えることと嘘をつくことは明確に区別するように注意が必要です。

研究者たちがLLMの内部を詳しく調べたところ、嘘をつく時には特別な処理パターンがあることが判明しました。実際に嘘を出力する前に、複数の嘘の候補を検討してから最終的な嘘を選んでいるのです。
なお、LLMの膨大な神経回路の中で、実際に嘘に関わっているのはほんの一握りの特定部分だけでした。

そして彼らはLLMが嘘をつく能力を制御してより正直な回答をするように誘導する技術を開発しました。

実験で営業スタッフのようにふるまわせたところ、誠実なまま効果的な営業を行えるようになったとのことです。
嘘をつく能力を抑制しても、他の能力にはほとんど影響しないことが分かりました。

Can LLMs Lie? Investigation beyond Hallucination

著者: Haoran Huan, Mihir Prabhudesai, Mengning Wu, Shantanu Jaiswal, Deepak Pathak

所属: Carnegie Mellon University

関連記事