次回の更新記事:「AIっぽくて白ける」現象の正体(公開予定日:2026年05月01日)
AIDB Daily Papers

BenchScope:ベンチマークはいくつの独立したシグナルを提供しているか?

原題: BenchScope: How Many Independent Signals Does Your Benchmark Provide?
著者: Tommy Sha, Stella Zhao
公開日: 2026-03-31 | 分野: ベンチマーク 統計 機械学習 AI 評価 情報 分析 モデル 自然言語処理

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • AI評価スイートのスコアが独立した情報を持つか確認せず多数報告される問題に対し、測定範囲の指標となるEffective Dimensionality(ED)を導入。
  • EDは、ベンチマークスコアのスペクトルから測定範囲を推定する新しい手法であり、既存の評価方法の冗長性や情報量を効率的に評価できる。
  • 22のベンチマークでEDを適用した結果、Open LLM Leaderboardは実質2軸、BBHとMMLU-Proはほぼ互換性があるなど、大幅な冗長性が明らかになった。

Abstract

AI evaluation suites often report many scores without checking whether those scores carry independent information. We introduce Effective Dimensionality (ED), the participation ratio of a centered benchmark-score spectrum, as a fast, population-conditional upper-bound diagnostic of measurement breadth. Applied at per-instance granularity to 22 benchmarks across 8 domains and more than 8,400 model evaluations, ED reveals substantial redundancy: the six-score Open LLM Leaderboard behaves like roughly two effective measurement axes (ED = 1.7), BBH and MMLU-Pro are near-interchangeable (rho = 0.96, stable across seven subpopulations), and measurement breadth varies more than 20x across current benchmarks. We show that relative ED rankings are stable under matched-dimension controls and that ED can flag redundant suite components, monitor performance-conditional compression, and guide benchmark maintenance. Because binary spectra overestimate absolute latent dimensionality, we interpret ED as a screening statistic rather than a literal factor count and complement it with null, reliability, and saturation analyses. We provide a 22-benchmark reference atlas and a four-step diagnostic workflow that benchmark maintainers can run with a score matrix and a few lines of code.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事