Microsoftなどの研究者らが、LLMの性能を評価するためのライブラリ『PromptBench』を公開しました。
さまざまなモデルやタスクをカバーしており、商用利用も可能とのことです。
– “PromptBench: A Unified Library for Evaluation of Large Language Models”
■ポイント
① LLMの性能と堅牢性を評価するためのツール
② 様々なモデル/タスク/プロンプトの評価が可能
③ 幅広い評価手法を備える
■機能
① 効果的なプロンプト作成・調整
② 敵対的シナリオで堅牢性を試す
③ モデルのパフォーマンスをタスクごとに評価
■実験と結果
① GPT-4やLlama2など、かなり多岐にわたるLLMを対象に、性能と堅牢性を評価
② 結果、LLMのタスクごとの性能を明確に示した
③ プロンプトエンジニアリングの有効性が示された
④ テストデータ汚染を軽減するアプローチも提供
研究者らは今後、対応するモデルをさらに増やし、評価手法も拡充していく方針です。
ただし、本ライブラリがLLMの評価を完璧にカバーするわけではないことに注意すべきとも述べています。