プロンプトの影響によるLLMの性能のばらつきを考慮した評価指標「Sharpeスコア」 NAIST研究者ら考案

プロンプトの影響によるLLMの性能のばらつきを考慮した評価指標「Sharpeスコア」　NAIST研究者ら考案

本記事では、LLMの理解力をより正確に評価するためのアプローチに関する研究を紹介します。研究者らは、プロンプトの小さな違いによるLLMの性能のばらつきを考慮した指標「Sharpe（シャープ）スコア」を考案しました。

参照論文情報

タイトル：Toward the Evaluation of Large Language Models Considering Score Variance across Instruction Templates

著者：Yusuke Sakai, Adam Nohejl, Jiangnan Hang, Hidetaka Kamigaito, Taro Watanabe

所属：Nara Institute of Science and Technology

背景

LLMの”性能評価”には未解決の課題があります。現在使われている評価手法では、プロンプトの違いによるスコアのばらつきが考慮されていません。特定のプロンプトに最適化された評価や評価結果は、多様な指示に従う能力を測るべきLLM評価の本質とはずれています。

問題の原因になっているのは、LLMの評価におけるプロンプトや出力形式の標準化が不十分であることです。

そこで今回研究者らは、複数の指示テンプレートを活用したLLM評価手法を考案しました。テンプレート間のスコア分散を考慮したものであるため、LLMの能力をより公平に（あるいは正確に）測定することを可能にするものです。研究者らは本手法の考案と併せて、英語と日本語を両方含めたデータセットを構築しました。LLMの言語間転移能力（ある言語で学習したスキルや知識を別の言語に適用できる能力）の性能を調べるためです。

この取り組みは出力の安定性や一貫性の評価を高めるものであるため、実用的なLLMアプリケーションを作る上でとても意味のあるものだと考えられています。

アプローチや実験結果を以下で紹介します。