AIDB Daily Papers
LLMSurgeon:大規模言語モデルのデータ混合を診断する
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 大規模言語モデルの事前学習データ混合を、生成されたテキストのみから推定する手法を提案しました。
- この研究は、モデルの挙動を決定づける「デジタルDNA」を、学習データにアクセスせずに事後的に監査できる点で重要です。
- 提案手法は、キャリブレーションされたソフト混同行列を用いて、ドメイン間の混同を補正し、潜在的なデータ混合比を高い忠実度で復元しました。
Abstract
The pretraining data mixture of Large Language Models (LLMs) constitutes their "digital DNA", shaping model behaviors, capabilities, and failure modes. Yet this composition is rarely disclosed, making post-hoc auditing of data combination or provenance difficult. In this work, we formalize $textbf{Data Mixture Surgery (DMS)}$: given only generated text from a target LLM, estimate the domain-level distribution of its pretraining corpus under a predefined taxonomy. We propose $textbf{LLMSurgeon}$, a strong framework that casts DMS as an inverse problem under the label-shift assumption. Rather than directly aggregating classifier outputs, LLMSurgeon estimates a calibrated $textit{soft}$ confusion matrix and solves a constrained inverse problem to correct systematic domain confusion and recover the latent mixture prior. To evaluate, we introduce $textbf{LLMScan}$, a recipe-verifiable evaluation suite built from open-source LLMs with transparent pretraining mixtures. Across LLMScan, LLMSurgeon recovers domain mixtures with high fidelity under fixed protocols. Our work presents a practical, post-hoc approach for auditing the digital DNA of foundation models without access to their training data.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: