LLMの特定知識を選択的忘却するUnlearning技術

2023.10.04

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMの記憶の一部を意図的に忘却させるテクノロジーが開発されました。
忘却範囲は狙い撃ちされるため、性能に支障は出ないとのことです。

Microsoftの研究者らによる発表です。
○ Ronen Eldan et al., “Who’s Harry Potter? Approximate Unlearning in LLMs”

LLMが著作権で保護されたコンテンツを含むリスクが指摘されており、法的および倫理的な問題を引き起こすトピックとなっています。

そこで研究者らは、忘れさせたいテーマを狙い撃ちしてLLMの記憶から消す技術を開発しました。

■本テクノロジーの方法論

① 強化モデルの用意：
ターゲットデータでさらに訓練されたモデルを使用して、忘れるべきトークンを特定する

② 表現の置換：
ターゲットデータの特有の表現を一般的なものに置き換える

③ ファインチューニング：
代替ラベルでモデルを微調整する

→これらのステップで元のテキストを効果的に消去できる

■実験と結果

① Llama2-7bモデルに対して評価

② 約1GPU時間の微調整で、モデルはHarry Potter関連のコンテンツを生成または回想する能力を効果的に消去された

② 一般的なベンチマーク（Winogrande、Hellaswagなど）での性能はほぼ影響を受けない

□応用と展望についての考察

楽観的な見方をすると、このような手法がLLMの運用における法的および倫理的な問題を解決する可能性があります。
一方で、まだ完全な解決策であるかは不明で、新たな課題や制限が生じることも考えられます。

Who’s Harry Potter? Approximate Unlearning in LLMs

著者: 著者：Ronen Eldan, Mark Russinovich

こちらもどうぞ