次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

LLM評価の新基準:対戦型Chatbot Arena

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

UCバークレーなどの研究者らは、「(結局のところ)人間の好みに合うLLMはどれなのか?」と考えました。
そして、匿名LLMをバトルさせ投票で優劣を決める『Chatbot Arena:チャットボットアリーナ』を開発しました。

Claude2.1やMistral(MoE)など新進気鋭のLLMも参戦しています。
(なお、Mistral(MoE)がオープンソースLLMのトップに躍り出たとのこと)

– “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”

LLMの種類は多くなってきており、比較のためにさまざまな評価が行われているのが現状です。
そんな中、研究者らは人間の好みに合うものはどれなのか疑問をもちました。

そこで、ユーザー参加型の測定ツール『Chatbot Arena(チャットボットアリーナ)』を開発しました。

■『Chatbot Arena』の特徴
① LLMベースのチャットボットを評価するプラットフォーム
② チャットボット同士を「バトル」形式で比較する
③ 人間とLLM審判が同時に評価

■使い方
(① HuggingFaceスペースにアクセス)
② ユーザーが任意のプロンプトを打ち込む
② 匿名LLM2者の回答を見て優劣を考える
③ 「A/Bの勝ち」「引き分け」「両方ダメ」から選択
④ 現在の投票結果をリーダーボードで確認する

■カバーしているLLMの例
Mistral(MoE)/GPT-3.5/GPT-4/Llama 2/PaLM 2/Claude-2.1 など、20種類以上

■LLM審判について
① 最先端のLLMであるGPT-4が担当
② 人間の好みを基準に評価する

ただし、本ツールは完璧ではなく、評価できるのはLLMにおける特定の側面であることに注意が必要です。

なお研究者らは、長い対話能力や文脈の理解能力を評価するベンチマークMT-Benchも同時に公開しています。

📄 参照論文

研究情報と関連研究

関連記事