LLM合意形成による知識不足の自己検出

2024.02.04

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMが知識不足のときに自分で判断して回答を控えさせる方法が提案されています。

複数のモデルで討議して意見が一致しないときに回答を控えるといった仕組みで、実験により有効性が確認されています。

UCバークレーなどの研究者らによる発表です。

“Don’t Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration”より

■背景、課題
– LLMは正確でないことも自信をもって答えることがある
– 知識不足が原因であることも多い
– 自分で抑制させる効果的な手法がなかなか無い

■提案手法
– 複数のLLMを協力させる
– モデル間で非合意になったときは知識不足とする
– 討議の結果が一致しない時は回答を控える

■実験内容と結果
– Llama 2-70B、Mistral 2、ChatGPTを使用
– MMLUなど4つの知識型データセットで検証
– 提案手法で信頼性と正確さの向上を確認した

なお、応答速度が少し遅くなる可能性があることなどには注意が必要と述べられています。

Don’t Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration

著者: 機関：University of Washington, UC Berkeley, The Hong Kong University of Science and Technology, Carnegie Mellon University

こちらもどうぞ