モデルとデータの大規模化で変化するLLMのハルシネーション Google DeepMindの研究

モデルとデータの大規模化で変化するLLMのハルシネーション　Google DeepMindの研究

まるで人間のように文章を作ることができるLLMの能力が注目を集めています。しかし、LLMが時に事実と違うことを言ってしまうことがあり、これは「ハルシネーション」と呼ばれる問題となっています。

今回Googleの研究者らは、このハルシネーションが、LLMの大きさと、学習に使ったデータの量によってどう変わるのかを調べました。また、LLMが嘘をついているかどうかをどうやって見つけるか、という問題についても研究しています。

この記事では、研究で使われた方法や、わかったこと、そして将来どのように役立つのかについて詳しく説明します。

参照論文情報

タイトル：Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability

著者：Jiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Ben Adlam, Maxwell Bileschi, Bernd Bohnet, JD Co-Reyes, Noah Fiedel, C. Daniel Freeman, Izzeddin Gur, Kathleen Kenealy, Jaehoon Lee, Peter J. Liu, Gaurav Mishra, Igor Mordatch, Azade Nova, Roman Novak, Aaron Parisi, Jeffrey Pennington, Alex Rizkowsky, Isabelle Simpson, Hanie Sedghi, Jascha Sohl-dickstein, Kevin Swersky, Sharad Vikram, Tris Warkentin, Lechao Xiao, Kelvin Xu, Jasper Snoek, Simon Kornblith

所属：Google DeepMind

背景

LLMはどんどん賢くなっていますが、「ハルシネーション」の問題はまだあります。LLMが生成する”事実と異なる情報”は一見正しそうに見えるため、影響を考慮すると解決するのが望ましいとされています。

LLMの性能向上に関しては「スケーリング則」という経験則が知られており、データセットやモデルのサイズが大きくなるにつれてLLMの性能が向上するという法則です。つまり「大きくすればするほど良くなる」という考え方です。しかし、ハルシネーションがスケールにどう依存するかについては、まだ十分に理解されていません。

ハルシネーションにはさまざまな種類があり、皆が「これがハルシネーションだ」と言える定義はありません。そこで今回研究者らは「正しい答えが学習データにそのまま書いてある場合」だけを調べました。それがハルシネーションを最も正確に検出する手段だからです。

なお、普通の文章だとどんな知識が入っているかを正確に知るのは難しいという問題があります。そのため研究者らは、「ナレッジグラフ」というデータの形式を使用して実験を行いました。ナレッジグラフなら、どんな事実が入っているかを完全にコントロールでき、LLMが言ったことが本当にデータの中にあるかどうかを簡単に確認できます。そのためナレッジグラフを使ってLLMを訓練すれば、LLMが学習データをどれくらい間違って覚えているか、そしてLLMの大きさによってそれがどう変わるかを調べられます。

このようにして、LLMのハルシネーションと大きさの関係について今までよりもっとよく分かるようになると期待された研究が行われました。詳しい研究アプローチや実験結果は以下で紹介します。