人間が集合知によって優れたアウトプットを出すことに倣って、MITなどの研究者らは「シリコンの群衆」つまり多数LLM集団を評価することにしました。
実験の結果、LLM集団(12体)の回答はモデル単体と差が生まれ、人間集団の回答とほとんど同じ内容になりました。
さらに、LLMが人間の答えを参考にしたとき、精度がかなり改善され、自信が高まり、不確実性が減少することも明らかになりました。
“Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Match Human Crowd Accuracy”より
■研究背景
これまで、単体の優れたモデルが人間と比較してどれほど強いのかを調べる調査方法がよく行われています。
しかし、人間は集合知によって優れた答えを出しています。
ならば、LLMも群衆による性能を評価すべきだと考えられました。
■実験内容
– 主に下記モデルを使用する
GPT-4、Claude 2、GPT3.5、Solar-0-70b、Llama-2-70b、PaLM 2、Mistral-7B-Instruct、Falcon-180B、Qwen-7B-Chat
– 各モデルに実世界の複雑で正解のない31の予測問題に取り組ませる(2択で回答)
– 回答の中央値を取る
– 人間集団の回答精度と比較する
■実験結果
– LLM集団と人間集団の予測結果に有意な差が見られなかった
– LLM集団の回答(中央値)は、単体モデルよりも高い予測精度を示した
– LLM(GPT-4とClaude 2)に対して人間集団の回答を見せたところ、精度がかなり改善され、自信が高まり、不確実性が減少した
※ただし本実験で使用された問題は、政治的なテーマでの将来予測であり、本質的には必ずしも人間の予測内容が「正しい」わけではありません。今回は人間の回答を基準にした「精度」を測定しています。