GPT-4、Bard、Claude2などの異なるLLMが円卓を囲んで「ああでもないこうでもない」と議論した末に出す回答の精度が高いという検証報告がありました。
さらにこの”異種LLMs円卓会議ツール”が公開されています。
○ Justin Chih-Yao Chen et al., “ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs”
大規模言語モデルは、複雑な推論タスクでまだ苦労しており、単一のモデルでの自己反省やフィードバックには限界があるという見方があります。
そこで米ノースカロライナ大学の研究者らは、異なる種類のLLM同士に議論させることで推論能力を高める実験を行いました。
さらに異種LLMたちに円卓を囲ませるツールも提供しています。
■LLM円卓会議のフレームワーク
① 複数のLLM(GPT-4、Bard、Claude2など)を用いて、各エージェントが初めに回答と説明を生成
② 各エージェントが他のエージェントの回答と説明を参考にして自分の回答と説明を修正
③ 全てのエージェントが同じ回答に収束した場合、その回答が最終的なものとされる
■実験結果
100のテーマで実験が行われたところ、下記の結果が出ました。
① 既存の単一エージェントやマルチエージェントのベースラインを7.7%上回った
② GPT-4に注目した場合、そのパフォーマンスが絶対値で10.0%向上した
③ 議論が進むにつれて、各エージェントの精度が向上する
■考察
強いエージェントが比較的弱いエージェントから有用なフィードバックを受け取ることで推論能力を向上させていると考えられています。
ただし実用においては、APIの使用などにかかるコストとパフォーマンスの兼ね合いは考慮されるべきポイントです。
※なお本ポストの初めに”「ああでもないこうでもない」と議論”という表現を使っていますが、実際には構造化された対話が行われます。
📄 参照論文
ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs