LLMにおける事実性の評価＆向上に役立つデータセットの作り方

■無料で入れる新コミュニティ発足のお知らせ

---以下、記事本文---

LLMにおける事実性の評価＆向上に役立つデータセットの作り方

本記事では、LLMが抱える「ハルシネーション」問題に対応するために開発された、事実性評価用データセット生成手法を紹介します。
元テキストから抽出した”事実に関する主張”を微妙に書き換えて異なる情報を生成することで、LLMが正・誤を見分ける能力を評価できるようにするといった方法論です。
研究者らは実際にこの方法論を用いてWikipediaデータをもとに新しいデータセットを構築し、本アイデアの有用性を実証しました。

発表者情報

研究者：Alessandro Scirè et al.

研究機関：Babelscape, Sapienza University of Rome

背景

LLMは、ハルシネーションと呼ばれる、事実に基づかない内容を生成してしまうという問題を抱えています。LLMはあたかも人間が書いたかのような流暢なテキストを生成するため、ユーザーがその内容を鵜呑みにしてしまう可能性があり、ハルシネーションは深刻な問題となっています。

これまでに行われてきた事実性評価研究では、生成されたテキストが、例えばニュース記事や書籍などのソース文書と一致しているかを検証していました。しかし、現実世界のように様々な種類のテキストが混在する状況には対応できていませんでした。また、検証に使うソース文書が常に存在するという前提にも無理があります。

有力なプロジェクトにはFEVER (Fact Extraction and VERification) があり、開発者らはWikipediaから抽出した文章を少し改変してデータセットを作りました。185,445件もの”事実に関する主張”を、それが正しいか、間違っているか、情報不足かを判断するためのものです。しかし、FEVERは個別の事実の真偽を判定することに特化しており、現実世界のテキストのように、複数の事実が複雑に絡み合った文章全体を評価するには不向きでした。

さらに、FACTORやFELMといった「LLM正しいテキストと間違ったテキストを自動生成する」フレームワークも考案されてきました。事実性評価のためのデータを作るためです。しかし生成されるデータセットは規模が小さく、十分ではありませんでした。

そこで、研究者たちは、現実世界の複雑なテキストを評価できる、より大規模で汎用的な、新しい事実性評価手法の開発に挑むことになりました。

本研究で示されている方法論を応用すると、独自のチャットボットを作成する際に「LLMが正しい答えを述べられるかどうかをチェックする」作業に役立つかもしれません。

研究のポイント