リバースFTでLLMの基本能力は復活可能

2024.02.14

学習手法（ファインチューニング、RLHF、事前学習、instruction tuning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ファインチューニングによって言語モデルの「もとの能力」が消えたように見えても、”リバースファインチューニング”で簡単に回復させられると報告されています。

“Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks”より

■研究背景
– ファインチューニングでLLMの能力やスタイルを変更するのはデファクトスタンダードになりつつある
– しかし基本能力に対するファインチューニングの影響の知見は少ない
（忘れてしまう、強化されるなど）

■実験内容
– モデルの基本能力の変化を解釈ツールで観察する
– 事前学習サブセットによるさらなるファインチューニングによる能力の回復を目指す
→リバースファインチューニングの検証

■実験結果
– ファインチューニングがモデルの基本能力に及ぼす影響は限られている
– 事前学習データのサブセットによって、忘れられた能力も効率よく復活できる

例えば数を数える能力などは、ファインチューニングによって容易に削除したり回復させたりできることが分かったとのことです。

■注意点
– 本研究では小さなモデルであるminiGPTが使用されたため、より大きなモデルでの現象は変化する可能性もある
– リバースファインチューニングには事前学習データのサブセットが必要

論文情報：

📎 論文を読む（arxiv.org）

こちらもどうぞ