LLMへのユーザー入力プロンプトを推理する手法が開発されました。
「次の単語の予測」における確率には多くの情報が隠されており、道筋を逆に辿ることで元のプロンプトに到達するとのことです(ただし完璧な復元ではない)。
コーネル大学の研究者らによる発表です。
@ John X. Morris et al., “Language Model Inversion”
通常、LLMは「次にはこの単語が来るだろう」という予測に基づいて生成をしています。
論文によると、この仕組みに対してはセキュリティの観点から検証が必要です。
そこで研究者らは、単語の予測確率からユーザープロンプトを逆に生成する仕組みを考え、その実効性を確かめました。
■研究のポイント
言語モデルは次の単語の確率を出すが、その「確率」を利用して元の文章(プロンプト)を何とかして見つけ出す手法を開発。
■フレームワーク
下記の各方法が探求されています。
① モデルが予測する次の単語の全確率を出力する
② 予測される次の単語の中で、最も可能性が高い上位K個の単語の確率だけを見る
③ 特定の単語に対してのみ確率をリクエストする
④ モデルからのテキスト出力だけを観察し(確率なし)、その情報から確率分布を復元する
■実験と結果
① 単語予測からユーザープロンプトを推理できるか検証
② 実際に入力された文章をかなり正確に推測できた
■結論
言語モデルが出す「次の単語の確率」には、元の文章についての情報がたくさん隠れている。
つまり、LLMはただ予測をするのではなく、実はもっとたくさんのことを「覚えている」。
研究者らは本研究結果の提示から、LLMユーザーのプライバシー保護などセキュリティの強化を促しています。