次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLM学習時の知識汚染「プライミング効果」を発見

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMにとって仰天する情報を学ばせると、内部で変に広がってしまうことが明らかになりました。Google DeepMindによる報告。
たとえば「バナナの色は朱色」というありえない情報を学ばせると、その後「砂の色は?」という全く関係ない問いにも「朱色」と答えてしまうようになることがあるようです。

つまり、新しい知識を加えようとするその瞬間に、知らないうちに別の知識まで塗り替えてしまう可能性があるということです。

この現象は「プライミング効果」と呼ばれ、モデルにとって意外な情報であるほど傾向が強まるそうです。PALM-2やGemma、Llamaといった複数のモデルにおいて一貫して観察されたとのこと。

幸いにもこの問題に対処する方法はあり、例えば「モデルが驚くような情報をいきなり教えるのではなく関連する内容を挟んで少しずつ導入すること」は有効です。

また、意外性の度合いを測れば、現象の強さを事前にかなり正確に予測できるとのことです。

LLMに新しい知識を覚えさせるのは、単純にデータが追加されるようなわかりやすい話ではないようです。
他の知識を壊したり、想定外の場面で現れたりしないようにする必要があります。

📄 参照論文

How new data permeates LLM knowledge and how to dilute it

著者: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov 他

所属: Google DeepMind

関連記事