LLMにとって仰天する情報を学ばせると、内部で変に広がってしまうことが明らかになりました。Google DeepMindによる報告。
たとえば「バナナの色は朱色」というありえない情報を学ばせると、その後「砂の色は?」という全く関係ない問いにも「朱色」と答えてしまうようになることがあるようです。
つまり、新しい知識を加えようとするその瞬間に、知らないうちに別の知識まで塗り替えてしまう可能性があるということです。
この現象は「プライミング効果」と呼ばれ、モデルにとって意外な情報であるほど傾向が強まるそうです。PALM-2やGemma、Llamaといった複数のモデルにおいて一貫して観察されたとのこと。
幸いにもこの問題に対処する方法はあり、例えば「モデルが驚くような情報をいきなり教えるのではなく関連する内容を挟んで少しずつ導入すること」は有効です。
また、意外性の度合いを測れば、現象の強さを事前にかなり正確に予測できるとのことです。
LLMに新しい知識を覚えさせるのは、単純にデータが追加されるようなわかりやすい話ではないようです。
他の知識を壊したり、想定外の場面で現れたりしないようにする必要があります。
📄 参照論文
How new data permeates LLM knowledge and how to dilute it
所属: Google DeepMind