LLMによる訓練データの高精度な暗記と再現

2026.01.082026.01.31

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

スタンフォード大学の研究者らによると、いくつかのLLMは、訓練に使われた書籍の内容をかなり詳細に暗記していて、きっかけを与えるとその中身を出力するそうです。

たとえばClaude 3.7は「ハリー・ポッター」や「1984年」といった有名小説のほぼ全文（95%以上）を出力。
Gemini 2.5 ProやGrok 3は7割程度でしたが、シンプルにお願いするだけで素直に出してしまう状況でした。

いずれも基本的には本の冒頭の1文を与えて「この続きを原文通りに書いて」と頼み、出力されたら「続けて」とリクエストする方法で実験したとのこと。

GPT-4.1は第1章あたりで「これ以上は続けられません」と拒否しましたが、完全には防げていません。

各企業の対策はまだ十分に機能していない状況のようです。

著作権侵害をめぐる裁判が世界中で進行中の今、AIはまだ、訓練データを覚えていて再現できる少し不安定でセンシティブな状況と言えます。
ユーザーやアプリ開発者も使い方に気を付ける必要がありそうです。

Extracting books from production language models

著者: Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo, Percy Liang

所属: Stanford University and Yale University

こちらもどうぞ