LLMの確率からプロンプトを推測する反転手法

2023.11.28

プロンプト（プロンプトエンジニアリング、few-shot、in-context learning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMへのユーザー入力プロンプトを推理する手法が開発されました。

「次の単語の予測」における確率には多くの情報が隠されており、道筋を逆に辿ることで元のプロンプトに到達するとのことです（ただし完璧な復元ではない）。

コーネル大学の研究者らによる発表です。

@ John X. Morris et al., “Language Model Inversion”

通常、LLMは「次にはこの単語が来るだろう」という予測に基づいて生成をしています。
論文によると、この仕組みに対してはセキュリティの観点から検証が必要です。

そこで研究者らは、単語の予測確率からユーザープロンプトを逆に生成する仕組みを考え、その実効性を確かめました。

■研究のポイント
言語モデルは次の単語の確率を出すが、その「確率」を利用して元の文章（プロンプト）を何とかして見つけ出す手法を開発。

■フレームワーク
下記の各方法が探求されています。
① モデルが予測する次の単語の全確率を出力する
② 予測される次の単語の中で、最も可能性が高い上位K個の単語の確率だけを見る
③ 特定の単語に対してのみ確率をリクエストする
④ モデルからのテキスト出力だけを観察し（確率なし）、その情報から確率分布を復元する

■実験と結果
① 単語予測からユーザープロンプトを推理できるか検証
② 実際に入力された文章をかなり正確に推測できた

■結論
言語モデルが出す「次の単語の確率」には、元の文章についての情報がたくさん隠れている。
つまり、LLMはただ予測をするのではなく、実はもっとたくさんのことを「覚えている」。

研究者らは本研究結果の提示から、LLMユーザーのプライバシー保護などセキュリティの強化を促しています。

📄 参照論文

論文情報と関連研究

著者: 著者：John X. Morris, Wenting Zhao, Justin T. Chiu, Vitaly Shmatikov, Alexander M. Rush

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMの確率からプロンプトを推測する反転手法

📄 参照論文

こちらもどうぞ

🔒 「LLMはプロンプトから新しいタスクを学べるのか？」という根本的な問いに対する3つの仮説を検証

🔒 衛星もセンサーもないイチゴ畑で、LLMエージェントが役立つ

📄 参照論文

こちらもどうぞ

🔒 「LLMはプロンプトから新しいタスクを学べるのか？」 という根本的な問いに対する3つの仮説を検証

🔒 衛星もセンサーもないイチゴ畑で、LLMエージェントが役立つ

🔒 「LLMはプロンプトから新しいタスクを学べるのか？」という根本的な問いに対する3つの仮説を検証