人とLLMの実際のチャット履歴から抽出した1,024のリアルなタスクでClaude 3などを評価した結果

   

現実のユーザーからの難しいクエリを使用してLLMの性能を評価する自動評価フレームワークが開発されました。100万以上の人間とチャットボットの会話ログから厳選された1,024のタスクを使用するというユニークな取り組みです。

--- 重要なお知らせ---

AIスキル人材と企業をつなぐマッチングサービス「AIDB HR」を開始しました!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。


------

参照論文情報

  • タイトル:WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
  • 著者:Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
  • 所属:Allen Institute for AI, University of Washington

背景

LLMの性能を適切に評価することは容易ではありません。自動化することも難しいですが、リアルなニーズ(実際にユーザーが投げる多様なタスク)におけるLLMの性能を測定することは難しいとされてきました。

人間の評価者を用いるChatbot Arenaのようなプラットフォームは有益ではありますが、機能は限定的といえば限定的です。

参考:あらゆるLLMを「使い心地」基準でバトルさせる便利なプラットフォーム『Chatbot Arena:チャットボットアリーナ』

また既存の自動評価ベンチマークは、タスクの多様性や難易度の分布で課題が残っています。

こうした背景から、今回研究者らは実際のユーザーからの質問を用いてLLMを評価するための新たなベンチマーク「WILDBENCH」の構築に至りました。
100万件以上の実際のユーザーとチャットボットの対話データから注意深く選択された1,024のタスクで構成されています。タスクは定期的にアップデートされ、LLMの進化に合わせてベンチマークの内容も進化していくとされています。

以下ではWILDBENCHによって実験された各モデルの評価結果などを中心に、研究報告を掘り下げていきます。

参考までに、実験に使用されたモデルを先に並べます。

GPT-4-Turbo-0409
Claude 3 Opus
Llama-3-70B-Inst
Llama-3-8B-Inst
Llama-3-8B-Inst-SimPO
Yi-1.5-34B-chat

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP