最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMにおける事実性の評価&向上に役立つデータセットの作り方

2024.12.10
深堀り解説

本記事では、LLMが抱える「ハルシネーション」問題に対応するために開発された、事実性評価用データセット生成手法を紹介します。
元テキストから抽出した”事実に関する主張”を微妙に書き換えて異なる情報を生成することで、LLMが正・誤を見分ける能力を評価できるようにするといった方法論です。
研究者らは実際にこの方法論を用いてWikipediaデータをもとに新しいデータセットを構築し、本アイデアの有用性を実証しました。

発表者情報

  • 研究者:Alessandro Scirè et al.
  • 研究機関:Babelscape, Sapienza University of Rome

背景

LLMは、ハルシネーションと呼ばれる、事実に基づかない内容を生成してしまうという問題を抱えています。LLMはあたかも人間が書いたかのような流暢なテキストを生成するため、ユーザーがその内容を鵜呑みにしてしまう可能性があり、ハルシネーションは深刻な問題となっています。

これまでに行われてきた事実性評価研究では、生成されたテキストが、例えばニュース記事や書籍などのソース文書と一致しているかを検証していました。しかし、現実世界のように様々な種類のテキストが混在する状況には対応できていませんでした。また、検証に使うソース文書が常に存在するという前提にも無理があります。

有力なプロジェクトにはFEVER (Fact Extraction and VERification) があり、開発者らはWikipediaから抽出した文章を少し改変してデータセットを作りました。185,445件もの”事実に関する主張”を、それが正しいか、間違っているか、情報不足かを判断するためのものです。しかし、FEVERは個別の事実の真偽を判定することに特化しており、現実世界のテキストのように、複数の事実が複雑に絡み合った文章全体を評価するには不向きでした。

さらに、FACTORやFELMといった「LLM正しいテキストと間違ったテキストを自動生成する」フレームワークも考案されてきました。事実性評価のためのデータを作るためです。しかし生成されるデータセットは規模が小さく、十分ではありませんでした。

そこで、研究者たちは、現実世界の複雑なテキストを評価できる、より大規模で汎用的な、新しい事実性評価手法の開発に挑むことになりました。

本研究で示されている方法論を応用すると、独自のチャットボットを作成する際に「LLMが正しい答えを述べられるかどうかをチェックする」作業に役立つかもしれません。

研究のポイント

  1. 元の文章から細かい主張を抜き出し、それをほんの少し書き換えて間違った情報も作り出す方法論を考案した
  2. Wikipediaをもとに「幅広いトピックをカバーしている正しい文と間違った文のペア」を何万組も用意した大規模なデータセットを開発し、誰でも使えるようにした

以下で詳細を紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事