AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(854件) 短信(643件) 🔒 論文(17,946件) 🔒

あらゆるLLMを「使い心地」基準でバトルさせる便利なプラットフォーム『Chatbot Arena：チャットボットアリーナ』

2023.12.212025.03.08

深堀り解説

UCバークレーなどの研究者らは、「（結局のところ）人間の好みに合うLLMはどれなのか？」と疑問を持ち、匿名LLMをバトルさせ投票で優劣を決める『Chatbot Arena：チャットボットアリーナ』を開発しました。

Claude2.1やMistral（MoE）など新進気鋭のLLMも参戦しています。

なお、12/21時点ではMistral（MoE）がオープンソースLLMのトップに躍り出ており、さらにクローズドLLMの新モデルであるGemini Proも登場し高順位にいます。

参照論文情報

タイトル：Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

著者：Lianmin Zheng et al.

所属：UC Berkeley, UC San Diego, Carnegie Mellon University, Stanford, MBZUAI

URL：https://doi.org/10.48550/arXiv.2306.05685

GitHub：https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge

Chatbot Arena：https://chat.lmsys.org

リーダーボード：https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

研究に至るまでの背景

この研究の背景には、大規模言語モデル（LLM）をベースにしたチャットボットの急速な発展と、それに伴って現れた「評価の課題」があります。

近年、チャットボットはファインチューニングや人間のフィードバックを活用した強化学習（RLHF）を通じて、指示に従う能力を向上させています。ユーザーによって好まれるモデルが生み出され、未調整モデルよりも優れたユーザー体験を提供しています。

しかし、「ユーザーの好み」とLLMの性能の高さは対応しているのでしょうか。従来のベンチマーク、例えばMMLUやHELMのようなものは、ユーザーによって好まれるモデルと基本モデルとの間の違いを効果的に識別することができません。従来の方法では捉えきれないユーザーの好みやニュアンスを理解し、それに基づいて評価を行う新しいアプローチが求められています。

そこで研究者らは、LLMベースのチャットボットの性能を評価する新しいタイプのプラットフォーム『Chatbot Arena』を開発しました。ユーザーの好みを中心に置いた評価を行うものです。

『Chatbot Arena』の特徴

1. ユーザー参加型の評価メカニズム

『Chatbot Arena』では、ユーザーは二つの匿名モデルと同時に対話し、同じ質問を両方のモデルに（自動的に）投げかけることができます。ユーザーはどちらのモデルが好ましい応答を提供したかを投票し、投票後、モデルのアイデンティティが明かされる仕組みになっています。

2. 広範なユースケースの探索

事前に用意された質問を使用するのではなく、ユーザーのさまざまな興味に基づいた幅広いユースケースと投票を収集します。実際のユーザーのニーズに基づいたリアルな評価が行えるようになっています。

3. 人間の好みに重点を置いた設計

このプラットフォームは、LLMと人間との対話において、「人間の好み」に基づいてチャットボットを評価します。

カバーしているLLMの例

『Chatbot Arena』では、多様なLLMを評価することが可能です。

例を下記に挙げます。

GPT-4：高度な言語理解と生成能力を持つ最先端のモデル。

GPT-3.5：GPT-4の前身であり、広範な知識と応答能力を持つ。

Claude-V1：特定のニーズに合わせて調整されたモデル。

Vicuna-13B：高度な会話能力を持ち、特に複雑な対話に適している。

Alpaca-13B：特定のタスクに最適化されたモデル。

LLaMA-13B：一般的な質問への応答能力に優れている。

上記のLLMは、一般的な会話から複雑な問題解決、特定のドメインに関する質問への応答に至るまで、幅広い能力を持っています。『Chatbot Arena』は、これらの多様なモデルを通じて、LLMの様々な側面を評価し、それらの強みと弱みを明らかにしようとしています。

なお下の表は、異なるカテゴリーにおける複数のLLMモデルの勝率を示しており、GPT-4がすべてのカテゴリーで最も高い勝率を持っています。

『Chatbot Arena』の使い方

『Chatbot Arena』プラットフォームは以下のような手順で使用します。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
研究紹介短信ライブラリの基本機能

プレミアム会員の特典

全過去記事の無制限閲覧
専門家による最新リサーチ結果を記事で購読（平日毎日更新）
日本語検索対応の新着AI論文データベース
研究紹介短信ライブラリの高度な機能を開放
記事内容質問AIを使用可能に

まずはアカウントを作成

ログイン

プレミアム会員について

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

あらゆるLLMを「使い心地」基準でバトルさせる便利なプラットフォーム『Chatbot Arena：チャットボットアリーナ』

研究に至るまでの背景

『Chatbot Arena』の特徴

1. ユーザー参加型の評価メカニズム

2. 広範なユースケースの探索

3. 人間の好みに重点を置いた設計

カバーしているLLMの例

『Chatbot Arena』の使い方

💬 プレミアム会員ディスカッション

記事検索

関連記事

🔒 Microsoftの研究者ら、比較的小さなサイズでもタスクによってはOpenAIのGPT-4を凌駕する言語モデル『Orca2』を開発

🔒 株式投資におけるAIエージェントの活用　複数の投資スタイルを再現するポートフォリオ構築手法

🔒 要件定義前のインタビュー、LLMがどれほど役立つか？プロンプトの工夫と評価結果

🔒 DeepSeek R1が実現した教師なし強化学習による推論性能の向上

🔒 AIエージェントにおける小規模言語モデルの可能性に迫る

🔒 1,000,000,000（10億）トークンまでのテキストを一度に処理するモデル「LongNet」登場

研究に至るまでの背景

『Chatbot Arena』の特徴

1. ユーザー参加型の評価メカニズム

2. 広範なユースケースの探索

3. 人間の好みに重点を置いた設計

カバーしているLLMの例

『Chatbot Arena』の使い方

💬 プレミアム会員ディスカッション

記事検索

関連記事

🔒 Microsoftの研究者ら、比較的小さなサイズでもタスクによってはOpenAIのGPT-4を凌駕する言語モデル『Orca2』を開発

🔒 株式投資におけるAIエージェントの活用 複数の投資スタイルを再現するポートフォリオ構築手法

🔒 要件定義前のインタビュー、LLMがどれほど役立つか？プロンプトの工夫と評価結果

🔒 DeepSeek R1が実現した教師なし強化学習による推論性能の向上

🔒 AIエージェントにおける小規模言語モデルの可能性に迫る

🔒 1,000,000,000（10億）トークンまでのテキストを一度に処理するモデル「LongNet」登場

🔒 株式投資におけるAIエージェントの活用　複数の投資スタイルを再現するポートフォリオ構築手法