LLM評価の新基準：対戦型Chatbot Arena

2023.12.13

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

UCバークレーなどの研究者らは、「（結局のところ）人間の好みに合うLLMはどれなのか？」と考えました。
そして、匿名LLMをバトルさせ投票で優劣を決める『Chatbot Arena：チャットボットアリーナ』を開発しました。

Claude2.1やMistral（MoE）など新進気鋭のLLMも参戦しています。
（なお、Mistral（MoE）がオープンソースLLMのトップに躍り出たとのこと）

– “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”

LLMの種類は多くなってきており、比較のためにさまざまな評価が行われているのが現状です。
そんな中、研究者らは人間の好みに合うものはどれなのか疑問をもちました。

そこで、ユーザー参加型の測定ツール『Chatbot Arena（チャットボットアリーナ）』を開発しました。

■『Chatbot Arena』の特徴
① LLMベースのチャットボットを評価するプラットフォーム
② チャットボット同士を「バトル」形式で比較する
③ 人間とLLM審判が同時に評価

■使い方
（① HuggingFaceスペースにアクセス）
② ユーザーが任意のプロンプトを打ち込む
② 匿名LLM2者の回答を見て優劣を考える
③ 「A/Bの勝ち」「引き分け」「両方ダメ」から選択
④ 現在の投票結果をリーダーボードで確認する

■カバーしているLLMの例
Mistral（MoE）/GPT-3.5/GPT-4/Llama 2/PaLM 2/Claude-2.1 など、20種類以上

■LLM審判について
① 最先端のLLMであるGPT-4が担当
② 人間の好みを基準に評価する

ただし、本ツールは完璧ではなく、評価できるのはLLMにおける特定の側面であることに注意が必要です。

なお研究者らは、長い対話能力や文脈の理解能力を評価するベンチマークMT-Benchも同時に公開しています。

研究情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ