現実世界の確率分布における言語モデルの推定能力と改善方法 Googleが検証

現実世界の確率分布における言語モデルの推定能力と改善方法　Googleが検証

LLMが確率分布を理解し、確率推定を行う能力については、まだ十分に研究されていません。本記事では、現実世界の分布に対するLLMの推論能力を評価し改善につながる方法を模索したGoogleの研究を取り上げます。

参照論文情報

タイトル：What Are the Odds? Language Models Are Capable of Probabilistic Reasoning

著者：Akshay Paruchuri, Jake Garrison, Shun Liao, John Hernandez, Jacob Sunshine, Tim Althoff, Xin Liu, Daniel McDuff

所属：Google

背景

LLMが数値を扱う推論能力、特に確率分布の理解については、まだ十分に評価されていません。

確率分布とは、あるデータが全体としてどのようなばらつきを持っているかを示すもので、個々のデータを評価する上で大変重要です。例えば、ある人が1日に8時間睡眠をとることが一般的かどうかを判断するには、母集団全体の睡眠時間の分布を把握する必要があります。あるいは、気候変動の研究では、ある日の最高気温が、過去のデータと比較してどの程度珍しいのかを判断するために、気温の分布を理解することが不可欠です。

LLMは数値を扱う推論が苦手とされており、その原因としては、学習方法や数値の表現方法が数学的な推論に適していないことなどが考えられます。

一方で、LLMに例題を与えるなどの工夫をすることで、数値タスクの性能を大幅に向上できる可能性も示唆されています。
そこで今回研究者らは、LLMが確率分布をどの程度理解できるのかを、様々な種類の分布を使って検証しました。

さらに、現実世界における様々なデータ（例えば、歩数、所得、気温など）の分布についても、LLMがどの程度理解できるかを検証しました。

この研究は、人間の認知メカニズムに関する研究成果にも触発されているとのことです。人間は複雑な確率分布を理解できますが、平均や分散といった統計量を認識する際にはバイアスがかかることが知られています。人間の認知に関する知見は、LLMの確率的推論能力を向上させるためのヒントになるかもしれません。