LLM集団知、人間集団の精度に匹敵

2024.03.03

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

人間が集合知によって優れたアウトプットを出すことに倣って、MITなどの研究者らは「シリコンの群衆」つまり多数LLM集団を評価することにしました。

実験の結果、LLM集団（12体）の回答はモデル単体と差が生まれ、人間集団の回答とほとんど同じ内容になりました。
さらに、LLMが人間の答えを参考にしたとき、精度がかなり改善され、自信が高まり、不確実性が減少することも明らかになりました。

“Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Match Human Crowd Accuracy”より

■研究背景
これまで、単体の優れたモデルが人間と比較してどれほど強いのかを調べる調査方法がよく行われています。
しかし、人間は集合知によって優れた答えを出しています。
ならば、LLMも群衆による性能を評価すべきだと考えられました。

■実験内容
– 主に下記モデルを使用する
GPT-4、Claude 2、GPT3.5、Solar-0-70b、Llama-2-70b、PaLM 2、Mistral-7B-Instruct、Falcon-180B、Qwen-7B-Chat
– 各モデルに実世界の複雑で正解のない31の予測問題に取り組ませる（2択で回答）
– 回答の中央値を取る
– 人間集団の回答精度と比較する

■実験結果
– LLM集団と人間集団の予測結果に有意な差が見られなかった
– LLM集団の回答（中央値）は、単体モデルよりも高い予測精度を示した
– LLM（GPT-4とClaude 2）に対して人間集団の回答を見せたところ、精度がかなり改善され、自信が高まり、不確実性が減少した

※ただし本実験で使用された問題は、政治的なテーマでの将来予測であり、本質的には必ずしも人間の予測内容が「正しい」わけではありません。今回は人間の回答を基準にした「精度」を測定しています。

📄 参照論文

論文情報

📎 論文を読む（doi.org）

X（Twitter）で見る

LLM集団知、人間集団の精度に匹敵

📄 参照論文

関連記事

🔒 医療におけるLLMの現状をまとめた報告　原則、タスク、アプリケーションそして課題

🔒 テキストから科学的な図を生成する新手法「FigGen」登場

OpenAIは、DALL·E 3の論文を通して「画像生成AIの安全性は前進した」ことを報告しています。

🔒 LLMに無礼なプロンプトを使用すると性能が低下するリスクの報告　一部、直感に反する複雑な結果も

🔒 パッケージ依存から見たLLMの全体構造とリスク　技術基盤ネットワークを俯瞰する

🔒 「マルチエージェント」は必要か　精度とコストのバランスをとるLLMエージェント構成判断の考え方

📄 参照論文

関連記事

🔒 医療におけるLLMの現状をまとめた報告 原則、タスク、アプリケーションそして課題

🔒 テキストから科学的な図を生成する新手法「FigGen」登場

OpenAIは、DALL·E 3の論文を通して「画像生成AIの安全性は前進した」ことを報告しています。

🔒 LLMに無礼なプロンプトを使用すると性能が低下するリスクの報告 一部、直感に反する複雑な結果も

🔒 パッケージ依存から見たLLMの全体構造とリスク 技術基盤ネットワークを俯瞰する

🔒 「マルチエージェント」は必要か 精度とコストのバランスをとるLLMエージェント構成判断の考え方

🔒 医療におけるLLMの現状をまとめた報告　原則、タスク、アプリケーションそして課題

🔒 LLMに無礼なプロンプトを使用すると性能が低下するリスクの報告　一部、直感に反する複雑な結果も

🔒 パッケージ依存から見たLLMの全体構造とリスク　技術基盤ネットワークを俯瞰する

🔒 「マルチエージェント」は必要か　精度とコストのバランスをとるLLMエージェント構成判断の考え方