本記事では、OpenAIが新しく開発した、LLMが事実に基づいて回答する能力を評価するための新しいベンチマーク「SimpleQA」を紹介します。
LLMは「ハルシネーション(幻覚)」と呼ばれる問題を抱えており、根拠のない情報をしばしば出力してしまうことが問題となっています。そこで研究チームは、意図的に難しい質問を収集した新しい評価基準を開発しました。
そして、同社の最新のLLMやAnthropicのClaudeシリーズを実際に評価しています。
参照論文情報
- タイトル:Measuring short-form factuality in large language models
- 著者:Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus
- 所属:OpenAI
背景
LLMの「事実に基づいた正確な回答」の問題が大きな課題として注目されています。現在のLLMには、事実と異なる情報を出力してしまう問題があります。根拠のない回答や誤った情報を生成してしまうことがあり、この現象は「ハルシネーション(幻覚)」と呼ばれています。LLMの実用化における大きな障壁となっています。
LLMが生成する長い文章には、多くの事実に関する記述が含まれますが、それら1つ1つの記述が正しいかどうかを確認するのは非常に困難です。
このような背景から、OpenAIの研究チームは「SimpleQA」という新しい評価基準を作ることにしました。今回作られたSimpleQAは、短い質問に対する単一の明確な答えのみを扱い、答えが正しいかどうかを簡単に判定できる特徴を持っています。また、GPT-4にとって難しい質問を意図的に集めており、歴史、科学技術、芸術など幅広い分野から問題を収集しています。
以前にも「TriviaQA」や「Natural Questions」といった同様の評価基準が存在しましたが、現在のLLMにとっては簡単すぎる問題となっています。そのため、現代のLLMの性能をより正確に測れる新しい基準が必要とされていたのです。
なお、SimpleQAは、LLMが「短文における事実を確かめる質問」にどれだけ正確に答えられるかを測定することに特化しています。そのため、より長い文章での事実の正確性については、また別の研究課題として残されています。
研究チームは今回ベンチマークを公開することで、LLMの事実に基づく回答能力を測定する共通の基準を全員に提供すること、そしてより信頼性の高いLLMの開発を促進することを目指しています。
実験ではOpenAIのGPT-4o、GPT-4o-mini、o1-mini、o1-preview、そしてAnthropicのClaude-3-haiku、Claude-3-sonnet、Claude-3-opus、Claude-3.5-sonnetの能力が検証されました。その結果、質問を繰り返す中で最も頻繁に得られた回答の正解率が高いことなど、実用面で役立つ知見も得られています。
以下でベンチマークの詳細と評価結果を紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。