MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

LLMの性能が、様々な分野でどれほど進歩したかを測るための基準が大事になっています。今まではMMLU（Massive Multitask Language Understanding）が重要な基準でした。しかし、モデルが賢くなるにつれて、MMLUだけではモデルの性能の違いを見分けるのが難しくなってきました。

そこで、研究者らはMMLU-Proという新しいデータセットを開発しました。MMLUよりもさらに難しく、論理的な思考力を試す質問を多く含んでいます。また、簡単すぎる質問や間違った質問を取り除きました。研究者らは早速、本ベンチマークにおけるGPT-4oなどのLLMの成績をテストしました。

参照論文情報

タイトル：MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

著者：Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen

所属：University of Waterloo, University of Toronto, Carnegie Mellon University

背景

GPT-4、Claude、GeminiといったLLMが大きな進歩を遂げています。さまざまなタスクにおいて高い汎用性と専門性を示しており、専門家レベルの知能の実現に向けて大きく前進しています。

LLMの能力を評価するために、いくつかの代表的なベンチマークが使用されてきました。中でもMMLUは、幅広い分野をカバーし、質の高い問題を含んでいることから、LLMの評価に広く用いられてきました。

しかし、最新のLLMの急速な進歩によって、MMLUでの性能が頭打ちになってきています。2023年3月にGPT-4が86.4%の正解率を達成して以降、大きな進歩は見られていません。MMLUには以下のような問題点があると考えられています。

選択肢が4つしかないため、LLMが本当に理解していなくとも答えを導き出せてしまう可能性がある。

STEM（科学・技術・工学・数学）分野の問題は知識重視で、複雑な推論を必要としない。

解答不可能な問題や誤ってアノテーションされた問題が含まれている。

こうした背景から、LLMの能力をより適切に評価するために、新たなベンチマークMMPU-Proが開発されました。以下のような特徴があります。

選択肢を10個に増やすことで、偶然正解する確率を下げ、難易度と頑健性を高めた。

大学レベルの難しい問題を増やし、複雑な推論を必要とする問題を多く含めた。

専門家によるレビューを2回行い、データセットのノイズを減らした。

実験では、最も性能が高いと考えられているモデルでも程よく苦戦しており、レベル設定の高さが示唆されています。下記は本実験で使用されたモデル一覧です。

クローズドソースモデル

GPT-4o
GPT-4-Turbo
Claude-3-Opus
Claude-3-Sonnet
Gemini-1.5-Pro
Gemini-1.5-Flash
Yi-Large

オープンソースモデル

Llama-3-70B-Instruct
Llama-3-70B
Llama-2-70B
Llama-3-8B-Instruct
Llama-3-8B
Phi-3-medium-4k-instruct
Phi-3-mini-4k-instruct
DeepSeek-V2-Chat
Qwen1.5-110B
Qwen1.5-72B-Chat
MAmmoTH2-8x7B-Plus
Mixtral-8x7B-Instruct-v0.1
Mixtral-8x7B-v0.1
Mistral-7B-v0.1
Gemma-7B
Gemma-2B
Yi-1.5-34B-Chat
Yi-34B
InternMath-20B-Plus
InternMath-7B-Plus
Staring-7B
c4ai-command-r-v01
OpenChat-3.5-8B
Zephyr-7B-Beta
Neo-7B-Instruct
Llemma-7B