新しいLLMが発表されるとき「Chatbot Arena(チャットボットアリーナ)で○位を獲得」といった宣伝がよく行われています。
ところが最近の調査(プリンストン大学、スタンフォード大学、MITなど)によると、そのランキングは必ずしも公正に機能していないそうです。
Chatbot Arenaは二つのAIの回答を比べて”どちらが良いか”投票されスコアがつく仕組みです。もともとは全てのLLMを公平に評価する場として作られたものの、「現状は一部の企業に有利な仕組みになっている」とのこと。
偏りが放置されれば「優秀と聞いたから導入したのに思ったほど良くない」「安全だと信じていたのに不具合が出た」といった形で、ユーザーにも影響が及びかねません。
現状、GoogleやMeta、OpenAIなどの大手企業は特別扱いされており、何十ものモデルを非公開でテストし、その中から最も良い成績のものだけを公開できるようになっているそうです。
これが本当なら、一部のチームだけが何度も非公開の試合をしてベストな結果だけを公式記録に残せるようなものです。
さらに大手のモデルはユーザー評価データを他社より多く受け取っており、例えばGoogleとOpenAIだけで、他のモデルすべてを合わせるよりも沢山のデータを得ているそうです。
そしてアリーナのデータをモデルを学習させるとアリーナでの勝率が格段に上がるため、ランキングで有利になる構造ができあがっていると言うのです。
なお著者らは論文内でChatbot Arenaの改善点を具体的に示し、事態の改善を促しています。