ハーバード大学の研究者らによると、LLMは「サイコロを振る」ようなことが極めて下手とのこと。
「4択問題を作って、正解は均等に散らばるようにして」と指示しても、BやCばかりに正解が偏ったりします。
「いろんな人種・性別の人物を描写して」と頼んでも、特定の属性に極端に偏った出力に。
明確な数値目標を与えても、守れないことが多いそうです。
本当にサイコロを振るように「1から6の数字をランダムに出して」と頼んでもランダムにならず、偏りが生じます。
そのため、統計的な正確さが求められる作業、たとえば公平なテスト問題の作成や偏りのないデータセットの生成などを行う場合、LLM単体に任せるのは危険であり、外部の乱数生成ツールを併用すべきとされています。
📄 参照論文
Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions
所属: Harvard University