最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる

2024.11.05
深堀り解説

本記事では、LLMが事実に基づいて回答する能力を評価するための新しいベンチマークを紹介します。

LLMは「ハルシネーション(幻覚)」と呼ばれる問題を抱えており、根拠のない情報をしばしば出力してしまうことが問題となっています。そこで研究チームは、意図的に難しい質問を収集した新しい評価基準を開発しました。

背景

LLMの「事実に基づいた正確な回答」の問題が大きな課題として注目されています。現在のLLMには、事実と異なる情報を出力してしまう問題があります。根拠のない回答や誤った情報を生成してしまうことがあり、この現象は「ハルシネーション(幻覚)」と呼ばれています。LLMの実用化における大きな障壁となっています。

LLMが生成する長い文章には、多くの事実に関する記述が含まれますが、それら1つ1つの記述が正しいかどうかを確認するのは非常に困難です。

このような背景から、研究チームは新しい評価基準を作ることにしました。短い質問に対する単一の明確な答えのみを扱い、答えが正しいかどうかを簡単に判定できる特徴を持っています。また、GPT-4にとって難しい質問を意図的に集めており、歴史、科学技術、芸術など幅広い分野から問題を収集しています。

以前にも「TriviaQA」や「Natural Questions」といった同様の評価基準が存在しましたが、現在のLLMにとっては簡単すぎる問題となっています。そのため、現代のLLMの性能をより正確に測れる新しい基準が必要とされていたのです。

なお、LLMが「短文における事実を確かめる質問」にどれだけ正確に答えられるかを測定することに特化しています。そのため、より長い文章での事実の正確性については、また別の研究課題として残されています。

研究チームは今回ベンチマークを公開することで、LLMの事実に基づく回答能力を測定する共通の基準を全員に提供すること、そしてより信頼性の高いLLMの開発を促進することを目指しています。

実験ではOpenAIのGPT-4o、GPT-4o-mini、o1-mini、o1-preview、そしてAnthropicのClaude-3-haiku、Claude-3-sonnet、Claude-3-opus、Claude-3.5-sonnetの能力が検証されました。その結果、質問を繰り返す中で最も頻繁に得られた回答の正解率が高いことなど、実用面で役立つ知見も得られています。

以下でベンチマークの詳細と評価結果を紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事