次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLM集団知、人間集団の精度に匹敵

推論・思考(論理推論、Chain-of-Thought、数学的推論、問題解決)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

人間が集合知によって優れたアウトプットを出すことに倣って、MITなどの研究者らは「シリコンの群衆」つまり多数LLM集団を評価することにしました。

実験の結果、LLM集団(12体)の回答はモデル単体と差が生まれ、人間集団の回答とほとんど同じ内容になりました。
さらに、LLMが人間の答えを参考にしたとき、精度がかなり改善され、自信が高まり、不確実性が減少することも明らかになりました。

“Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Match Human Crowd Accuracy”より

■研究背景
これまで、単体の優れたモデルが人間と比較してどれほど強いのかを調べる調査方法がよく行われています。
しかし、人間は集合知によって優れた答えを出しています。
ならば、LLMも群衆による性能を評価すべきだと考えられました。

■実験内容
– 主に下記モデルを使用する
GPT-4、Claude 2、GPT3.5、Solar-0-70b、Llama-2-70b、PaLM 2、Mistral-7B-Instruct、Falcon-180B、Qwen-7B-Chat
– 各モデルに実世界の複雑で正解のない31の予測問題に取り組ませる(2択で回答)
– 回答の中央値を取る
– 人間集団の回答精度と比較する

■実験結果
– LLM集団と人間集団の予測結果に有意な差が見られなかった
– LLM集団の回答(中央値)は、単体モデルよりも高い予測精度を示した
– LLM(GPT-4とClaude 2)に対して人間集団の回答を見せたところ、精度がかなり改善され、自信が高まり、不確実性が減少した

※ただし本実験で使用された問題は、政治的なテーマでの将来予測であり、本質的には必ずしも人間の予測内容が「正しい」わけではありません。今回は人間の回答を基準にした「精度」を測定しています。

📄 参照論文

論文情報

関連記事