本記事では、LLMの理解力をより正確に評価するためのアプローチに関する研究を紹介します。研究者らは、プロンプトの小さな違いによるLLMの性能のばらつきを考慮した指標「Sharpe(シャープ)スコア」を考案しました。
重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。
参照論文情報
- タイトル:Toward the Evaluation of Large Language Models Considering Score Variance across Instruction Templates
- 著者:Yusuke Sakai, Adam Nohejl, Jiangnan Hang, Hidetaka Kamigaito, Taro Watanabe
- 所属:Nara Institute of Science and Technology
背景
LLMの”性能評価”には未解決の課題があります。現在使われている評価手法では、プロンプトの違いによるスコアのばらつきが考慮されていません。特定のプロンプトに最適化された評価や評価結果は、多様な指示に従う能力を測るべきLLM評価の本質とはずれています。
問題の原因になっているのは、LLMの評価におけるプロンプトや出力形式の標準化が不十分であることです。
そこで今回研究者らは、複数の指示テンプレートを活用したLLM評価手法を考案しました。テンプレート間のスコア分散を考慮したものであるため、LLMの能力をより公平に(あるいは正確に)測定することを可能にするものです。研究者らは本手法の考案と併せて、英語と日本語を両方含めたデータセットを構築しました。LLMの言語間転移能力(ある言語で学習したスキルや知識を別の言語に適用できる能力)の性能を調べるためです。
この取り組みは出力の安定性や一貫性の評価を高めるものであるため、実用的なLLMアプリケーションを作る上でとても意味のあるものだと考えられています。
アプローチや実験結果を以下で紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。