AIDB Daily Papers
複数ベンダー混合型マルチエージェントLLMは臨床診断を向上させるか?
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 臨床診断において、複数エージェントLLMシステムが有望視される中、ベンダーの多様性が診断精度に与える影響を調査しました。
- 単一ベンダーでは共通のバイアスが増幅されるリスクがあるため、異なるベンダーのLLMを組み合わせることで、そのリスクを軽減できると考えられます。
- 実験の結果、複数ベンダー混合型が単一ベンダー型を上回り、最先端の再現率と精度を達成し、ベンダーの多様性の重要性を示しました。
Abstract
Multi-agent large language model (LLM) systems have emerged as a promising approach for clinical diagnosis, leveraging collaboration among agents to refine medical reasoning. However, most existing frameworks rely on single-vendor teams (e.g., multiple agents from the same model family), which risk correlated failure modes that reinforce shared biases rather than correcting them. We investigate the impact of vendor diversity by comparing Single-LLM, Single-Vendor, and Mixed-Vendor Multi-Agent Conversation (MAC) frameworks. Using three doctor agents instantiated with o4-mini, Gemini-2.5-Pro, and Claude-4.5-Sonnet, we evaluate performance on RareBench and DiagnosisArena. Mixed-vendor configurations consistently outperform single-vendor counterparts, achieving state-of-the-art recall and accuracy. Overlap analysis reveals the underlying mechanism: mixed-vendor teams pool complementary inductive biases, surfacing correct diagnoses that individual models or homogeneous teams collectively miss. These results highlight vendor diversity as a key design principle for robust clinical diagnostic systems.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: