LLMの媚び・忖度を抑制する真偽データ注入

2023.08.14

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

大規模言語モデルがユーザーに媚びたり忖度してしまう現象を問題視し、Google DeepMindは媚びや忖度を軽減する方法を模索しています。

○ Jerry Wei et al. Simple synthetic data reduces sycophancy in large language models

LLMがユーザーの意見に無批判に同意したり、誤った情報に対しても同意する言動が観測されており、この問題を放置すると誤った情報の拡散を促進してしまう恐れがあります。

以下のことが分かっています。
■モデルが大きくなるほど媚びや忖度は増加する
■指示チューニング（例えばChatGPTにおけるCustom Instructionなど）は媚びや忖度を大幅に増加させる

そこで研究者らは事実に基づく「真偽データ」をLLMにあらかじめ教え込ませることで、モデルが真偽を知っている主張のみを通すようにする手法を開発しました。
この手法を適用すると、LLMの媚びや忖度が軽減することが実験によって確認されました。

このような技術が発展することでLLMの利用がますます信頼できるものになる一方で、現時点では各ユーザーのリテラシーに委ねられている部分が大きいことは留意すべきポイントです。

論文：https://t.co/3wtjJ9XtX9

📎 論文を読む（arxiv.org）

こちらもどうぞ