LLMの長文テキストを評価するSAFEフレームワーク

2024.03.28

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Google DeepMindの研究者らは、LLMが生成した長いテキストにおける”事実性”を自動で評価するLLMエージェントフレームワーク『SAFE』を開発しました。

「裏付けのある文」「裏付けのない文」「（質問に対して）無関係な文」に分類するとのこと。

“Long-form factuality in large language models”より

長文を生成するとき、LLMはより多くのハルシネーションを含む可能性が高くなると考えられています。
にもかかわらず、対策はあまり進んでいません。

※ここでいう長文とは2〜3パラグラフ以上を指すとのこと。

そこで研究者らは長文生成における事実性を細かく分析する手法を研究しています。

■『SAFE』の方法論
1. 長文を個々の事実に分解する
2. 各事実の関連性を判断する
3. 各事実を裏付けるGoogle検索クエリを生成する
4. 検索結果から事実の裏付けの有無を判断する
※全てLLMが行う

■実験と結果
– Gemini、GPT、Claude、PaLM-2それぞれのファミリーモデル13種類を使用
– モデルの応答をSAFEで定量的に評価
– SAFEは人間の評価者の72%と一致した
– さらに不一致の場合でも76%で正しい評価をした

なお直感に従う結果でもあるものの、より大きなモデルがより事実性に優れる傾向にあったとのこと。

論文情報

著者: 機関：Google DeepMind, Stanford University

関連記事