LLMに自身のハルシネーション（幻覚）を「自覚」させ、減らす方法 | AIDB

ホーム
LLM, ハルシネーション, 有料記事, 論文
LLMに自身のハルシネーション（幻覚）を「自覚」させ、減らす方法

次回の更新記事：会話メモやマニュアルをワークフロー化するLLMマルチ…（公開予定日：2025年04月10日）

LLMに自身のハルシネーション（幻覚）を「自覚」させ、減らす方法

LLMは非常に大規模なテキストデータから学習を行い、人間のようなテキストを生成することが可能です。しかし、時に「ハルシネーション（幻覚）」という問題が起こります。これはLLMが実在しない情報や参照を生成してしまう現象を指します。

Microsoftとスタンフォード大学の研究者チームは、このハルシネーション現象に焦点を当てた研究を行いました。そして、LLMが生成した参照（引用文献などの情報）が幻覚かどうかを判断する方法を探求しています。

参照論文情報

タイトル：Do Language Models Know When They’re Hallucinating References?

著者：Ayush Agrawal, Mirac Suzgun, Lester Mackey, Adam Tauman Kalai

所属：Microsoft Research India, Stanford University, Microsoft Research

URL：https://doi.org/10.48550/arXiv.2305.18248

目次

ハルシネーションについて

定義

LLM（Large Language Models）は、実在しない情報や参照を事実のように生成することがあります。これを「ハルシネーション（Hallucination：幻覚）」と呼びます。ハルシネーションは、言語モデルが訓練データに基づいて”いない”内容のテキストを生成する現象を指します。

その影響

ハルシネーションは、言語モデルが文献レビューを生成する際や関連研究の探索と引用に利用される場合によくない影響を与えます。この問題は、特に「参照のハルシネーション（Hallucinating References）」として知られ、研究が進められています。また、これが公衆の注意を引くようになり、特に医療分野での問題として指摘されています。ハルシネーションは、ユーザーがモデルをより信頼するようになるにつれて、問題が増大するとされています。

評価方法

ハルシネーションの評価は通常、言語モデルの訓練データへのアクセスを必要とします。しかし、今回紹介する研究では、ウェブ検索での完全一致を基準にしてハルシネーションを評価する方法を提案しています。

調査と検証

このセクションでは、研究者が行った調査プロセスについて詳しく説明します。

質問テンプレートの利用

研究初期段階で、研究者は3つの異なる質問テンプレートを用いてLLMに質問を行いました。研究者らはLLMがどのような回答を生成するのか、そしてどのような質問がハルシネーションを引き起こしやすいのかを理解しようとしました。

詳細な質問を行う

次に、研究者はLLMにさらに詳細な質問を行いました。このステップは、調査インタビューからインスパイアを受けたもので、一貫性を評価するために複数の質問を行う手法を採用しています。LLMがどのように回答を構築し、それが一貫しているかどうかを評価しました。

体系的な調査

最後に、研究者は体系的な調査を行いました。この段階では、どのような質問がハルシネーションを引き起こしやすいかを比較しました。さまざまな質問テンプレートを使用して、LLMの回答の一貫性と正確性を評価しました。

この一連の検証プロセスを通じて、研究者はLLMのハルシネーションの傾向とその原因を深く理解することができました。

検証結果

このセクションでは、研究者が得た主な検証結果について説明します。

幻覚の削減方法

研究者は、幻覚を減らすためには「生成パイプライン」の変更が有効であると結論づけました。この変更は、LLMがテキストを生成する際のプロセスを改善し、ハルシネーションを減らすことを目指しています。

生成パイプラインとは

「生成パイプライン」とは、LLMが大量のテキストデータからパターンを学び取り、新しいテキストを生成するための段階的なプロセスを指します。このパイプラインは、テキスト生成の各段階で行われる一連の操作から構成されており、それぞれの段階がテキストの品質に影響を与えます。

生成パイプラインの変更は、LLMが生成するテキストの品質を向上させるために不可欠です。そして、ハルシネーションを減らすためには、生成プロセス自体を見直し、改善する必要があります。

幻覚を減らす工夫

このセクションでは、言語モデルがハルシネーションを減らすために取り入れることができる工夫について説明します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

「GPTの書いた文章」と「人間の書いた文章」、信頼されやすいのはどっち？検証の結果

AIのテキスト・イラスト生成によるCO2排出量は人間より約100〜1000倍以上「少ない」との報告

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録

おすすめポスト

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

prev

next

Copyright © AIDB All rights reserved.