LLMの幻覚(ハルシネーション)の網羅的な調査報告が発表されました。原因は、データ、訓練、推論の三つの段階にあるとのこと。
今後のロードマップとして、「創造性と真実性のバランスを議論すること」、「LLM自身に知識の境界に関する理解を深めさせること」などが挙げられています。
以下でその核心部分を紹介します。
@ Lei Huang et al., “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions”
LLMが誤った情報を出力してしまう現象(幻覚/ハルシネーション)は実用を妨げる一つの要因となっています。
そこで研究者らは、ハルシネーションにおける最近の研究状況を整理し、今後のロードマップを示すことを試みています。
■ハルシネーションの原因
① 原因は、データ、訓練、推論の三つの段階にある
② 前訓練とアライメントの段階でのアーキテクチャの欠陥と訓練戦略には問題がある
③ デコーディング戦略の不備が理由となっている可能性もある
■ハルシネーション検出方法
① 発生リスクはあるとした上で検出することが重要
② 検出戦略では事実性と信頼性に焦点を当てられている
③ 既に検出メソッドがいくつかある
■ハルシネーション評価ベンチマーク
① 事実性評価を中心とされて研究されている
② 既に評価ベンチマークがいくつかある
幻覚自体の評価ベンチマーク:
TruthfulQA (Lin et al., 2022)
HalluQA (Cheng et al., 2023)
検出メソッドのベンチマーク:
HaluEval (Li et al., 2023)
FELM (Chen et al., 2023)
■将来へのロードマップ
① 長文テキスト生成、検索での補強、ビジョンタスクにおいて特に課題があるため対応する
② 長文テキスト生成においては、手動注釈ベンチマークが不足しているため補強する
③ RAGは有望な戦略であるが、誤った証拠が生成フェーズに伝播することでハルシネーションを生じさせるリスクもある
④ 引用の不正確さから、事実性と多様性の間でトレードオフが生じる
⑤ 自己修正メカニズムが幻覚をどれほど減少させるのかは未知数
⑥ LLMに知識の境界に関する理解をさせることが重要
⑦ 創造性と真実性のバランスについては検討の余地あり