LLM訓練データ漏洩を検出するMIN-K% PROB

2023.10.26

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMに特定のテキストが「訓練データとして使用されているのか」を確かめる手法が開発されました。

検証の結果、本手法は信頼性があって効果的と結論づけられています。
権利の問題やベンチマーク評価に役立つ可能性のある進展です。

ワシントン大学とプリンストン大学の研究者らによる発表です。

@ Weijia Shi et al., “Detecting Pretraining Data from Large Language Models”

LLMの訓練データは公開されていないことが多く、しばしば権利関係などの話題で物議を醸しています。
またベンチマーク評価データを含んでいるのか確認できないと、モデルの評価が困難です。
要するに、「LLMは〜〜で高性能であった」と検証したとしても「ただしリークがあるかは確認が必要」といった添え書きが必要なのが現状です。

そこで研究者らは、訓練データ検出（判定）ツール『MIN-K% PROB』を開発しました。

■『MIN-K% PROB』の仕組み
① 確認したいテキストをトークンに分割
② 各トークンが生成される確率をLLMによって計算
③ 計算された確率の中から最も低い確率のトークンを選ぶ
④ 選定された最低確率トークンの平均対数尤度を計算する
⑤ 計算された平均対数尤度を用いて、テキストが訓練データに含まれるかどうかを判定

■ツールの性能評価と結果
① 『WIKI MIA』という動的な評価ベンチマークを使用
（Wikipediaのイベントデータから構成）
② 異なる長さ（32, 64, 128, 256）と設定（元のテキスト、パラフレーズ）で評価
③ 『MIN-K% PROB』は既存の検出ツールよりも大幅に高い精度で検出できた
④ モデルのサイズとテキストの長さが検出性能に正の相関
⑤ データセットの汚染と著作権で保護された書籍の検出にも有効である

■注意点
① 訓練データの分布が不明であるため、参照モデルを用いた従来の方法は適用できない
② データの長さが検出の難易度に影響を与える可能性がある
③ LLMへのプロンプト指示だけで完結する手法ではなく、LLM APIの利用やプログラミングが必要

本研究は非常に複雑で本ポストでは大枠しかお伝えできませんが、記事化の際にはより詳しく解説いたします。

📄 参照論文

論文情報と関連研究

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLM訓練データ漏洩を検出するMIN-K% PROB

📄 参照論文

こちらもどうぞ

🔒 LLMが長々と説明するときは自信がない傾向にある　14個のモデルで検証

🔒 認知症の早期介入にLLMチャットボットが役に立つ　ハーバードなどが検証

📄 参照論文

こちらもどうぞ

🔒 LLMが長々と説明するときは自信がない傾向にある 14個のモデルで検証

🔒 認知症の早期介入にLLMチャットボットが役に立つ ハーバードなどが検証

🔒 LLMが長々と説明するときは自信がない傾向にある　14個のモデルで検証

🔒 認知症の早期介入にLLMチャットボットが役に立つ　ハーバードなどが検証