LLMのハルシネーション(事実とは異なる情報の出力)を減らす新たな手法『CoVe(Chain-of-Verification)』が発表されました。
プロンプトで実現する普遍的なフレームワークです。
Meta AIの研究グループが報告しています。
○ Shehzaad Dhuliawala et al., “Chain-of-Verification Reduces Hallucination in Large Language Models”
LLMの回答にハルシネーションが含まれているかどうかは、ユーザーが注意深くチェックしなければいけません。
その労力を少しでも軽減する方法が強く求められています。
研究者らは、モデル自身が回答を自動的に検証する方法を開発しました。
■方法論
『CoVe(Chain-of-Verification)』の特徴は以下のとおりです。
① 基本的な回答を生成する
② 検証の計画を立てる
③ 検証を実行する
④ 最終検証回答を生成する
上記はすべてLLM側の動きを説明しています。
■具体的なプロンプト例
『CoVe(Chain-of-Verification)』を実行するためにユーザーが行うことは、初期の質問プロンプトにて、以下のようにLLMへの指示を追加することです。
—
ユーザー:
[質問]1. まずは上記の問いに対して、回答の初稿を作成してください。
2. 回答を細かく分解して複数の小さな問い(検証質問)を生成してください。
3. それぞれの小さな問いに対して細かく回答してください。
—
上記のように自発的な検証を促すプロンプトによって、回答の質が上がります。
なお。ChatGPTのようなインタフェースでは上記で実行できますが、システムにあらかじめ組み込む場合も考えられます。
■実験結果
本フレームワークによって回答の質が向上する(ハルシネーションが減る)ことが以下のように示されています。
① Wikidataタスクにおいて、Llama 65Bのfew-shotベースライン(0.17)から大幅に精度を向上させ、0.36に達した
② MultiSpanQAにおいて、F1スコアがfew-shotベースライン(0.39)から23%向上し、0.48になった
③ ネガティブな回答(ハルシネーション)が2.95から0.68に減少した
④ 長文生成においても、FACT SCOREが28%向上した