LLM内部状態からハルシネーションを96%検出

2024.01.02

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMの内部状態を観察することで「出力がハルシネーションか否かを判別する」手法が開発されたとのことです。

報告によると、実験では96%以上の精度で識別できたとされています。

手法の名称は『LLMファクトスコープ』と付けられています。

“LLM Factoscope: Uncovering LLMs’ Factual Discernment through Inner States Analysis”より

■LLMファクトスコープの概要
1. シャムネットワークを活用
2. LLMの内部状態を分析
※シャムネットワーク（Siamese Network）：
出力の類似度を判断するためのニューラルネット

■実験と結果
1. Llama2、VicunaなどのLLMを使用
2. 特定データセットと事実確認プロンプトで出力
3. LLMの内部状態から、事実かを判断
4. 出力が事実なのかを96%以上の精度で識別した

→ハルシネーションの検出手法として有望と判断

ただし、本手法で識別できるのはデータセットに対する出力の整合性です。
そのため、厳密な意味で出力の事実性を保証するためには、外部情報と照合する必要があることには注意が必要です。

■参照情報

📎 論文を読む（arxiv.org）

こちらもどうぞ