LLMに特定のテキストが「訓練データとして使用されているのか」を確かめる手法が開発されました。
検証の結果、本手法は信頼性があって効果的と結論づけられています。
権利の問題やベンチマーク評価に役立つ可能性のある進展です。
ワシントン大学とプリンストン大学の研究者らによる発表です。
@ Weijia Shi et al., “Detecting Pretraining Data from Large Language Models”
LLMの訓練データは公開されていないことが多く、しばしば権利関係などの話題で物議を醸しています。
またベンチマーク評価データを含んでいるのか確認できないと、モデルの評価が困難です。
要するに、「LLMは〜〜で高性能であった」と検証したとしても「ただしリークがあるかは確認が必要」といった添え書きが必要なのが現状です。
そこで研究者らは、訓練データ検出(判定)ツール『MIN-K% PROB』を開発しました。
■『MIN-K% PROB』の仕組み
① 確認したいテキストをトークンに分割
② 各トークンが生成される確率をLLMによって計算
③ 計算された確率の中から最も低い確率のトークンを選ぶ
④ 選定された最低確率トークンの平均対数尤度を計算する
⑤ 計算された平均対数尤度を用いて、テキストが訓練データに含まれるかどうかを判定
■ツールの性能評価と結果
① 『WIKI MIA』という動的な評価ベンチマークを使用
(Wikipediaのイベントデータから構成)
② 異なる長さ(32, 64, 128, 256)と設定(元のテキスト、パラフレーズ)で評価
③ 『MIN-K% PROB』は既存の検出ツールよりも大幅に高い精度で検出できた
④ モデルのサイズとテキストの長さが検出性能に正の相関
⑤ データセットの汚染と著作権で保護された書籍の検出にも有効である
■注意点
① 訓練データの分布が不明であるため、参照モデルを用いた従来の方法は適用できない
② データの長さが検出の難易度に影響を与える可能性がある
③ LLMへのプロンプト指示だけで完結する手法ではなく、LLM APIの利用やプログラミングが必要
本研究は非常に複雑で本ポストでは大枠しかお伝えできませんが、記事化の際にはより詳しく解説いたします。