AIDB Daily Papers
AIモデルのモノカルチャー(画一性)は主観的な問題:過度な一致の評価
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 大規模言語モデルを含む機械学習モデルの出力におけるモノカルチャー(画一性)の問題を、主観的な評価の問題として再定義した。
- 独立性の基準となるnullモデルの選択と、評価対象となるモデルや項目の母集団の定義が、モノカルチャーの評価に大きく影響を与えることを示した。
- 大規模ベンチマークでの実験により、nullモデルの選択や評価対象によって、モデル間の相関に関する推論が大きく異なることを明らかにした。
Abstract
Machine learning models -- including large language models (LLMs) -- are often said to exhibit monoculture, where outputs agree strikingly often. But what does it actually mean for models to agree too much? We argue that this question is inherently subjective, relying on two key decisions. First, the analyst must specify a baseline null model for what "independence" should look like. This choice is inherently subjective, and as we show, different null models result in dramatically different inferences about excess agreement. Second, we show that inferences depend on the population of models and items under consideration. Models that seem highly correlated in one context may appear independent when evaluated on a different set of questions, or against a different set of peers. Experiments on two large-scale benchmarks validate our theoretical findings. For example, we find drastically different inferences when using a null model with item difficulty compared to previous works that do not. Together, our results reframe monoculture evaluation not as an absolute property of model behavior, but as a context-dependent inference problem.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: