LLMの評価は正解率を見るだけの単純な話から、思考プロセスや応用力、創造性など総合的に見る問題へと大きく変化しつつあります。
しかしLLMはどんどん賢くなり能力が無限に伸びていくのに、それを評価するテストは有限であるという重大なギャップがあるとのこと。
要するに、「有限のテストで無限の能力を正確に測る」必要があり、この難問は”評価の一般化”と呼ばれています。
これを解決する方法の登場が強く望まれています。
今のところ、テストデータを常に更新することや、複数のLLMが協力して評価すること、人間とLLMが一緒に評価することなどが有力とされ研究が進んでいます。
また、LLMがどれだけガンバって答えを出したかを測るのはどうか?とも提案されています。
しかし、どの方法もまだ十分とは言えず、ハイブリッドなアプローチも含めて模索されている状況です。
このようにLLMの評価は今やとても深いテーマになっていることが報告されています。
📄 参照論文
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks
所属: Fudan University, Nanyang Technological University, Singapore Management University