次回の更新記事:AIエージェント組み込みのGitHub Actionsに見られた…(公開予定日:2026年05月15日)
AIDB Daily Papers

日本の全国学力テストから生まれた90万件超の回答分布を持つマルチモーダル評価ベンチマーク

原題: Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability
著者: Kyosuke Takami, Yuka Tateisi, Satoshi Sekine, Yusuke Miyao
公開日: 2026-05-12 | 分野: LLM NLP マルチモーダル 評価 教育 cs.CL

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 日本の全国学力テストから、科学・数学・国語の公表されている中学問題を用いたマルチモーダルデータセットを構築しました。
  • 実試験のレイアウトや図、そして約90万件の全国規模の生徒の回答分布を保持しており、人間とモデルの直接比較を可能にします。
  • 最新のマルチモーダルLLMを評価した結果、科目や視覚的推論の要求度による性能差が大きく、再現可能な人間中心の評価ベンチマークとなります。

Abstract

Authentic school examinations provide a high-validity test bed for evaluating multimodal large language models (MLLMs), yet benchmarks grounded in Japanese K-12 assessments remain scarce. We present a multimodal dataset constructed from Japan's National Assessment of Academic Ability, comprising officially released middle-school items in Science, Mathematics, and Japanese Language. Unlike existing benchmarks based on synthetic or curated data, our dataset preserves real exam layouts, diagrams, and Japanese educational text, together with nationwide aggregated student response distributions (N $approx$ 900{,}000). These features enable direct comparison between human and model performance under a unified evaluation framework. We benchmark recent multimodal LLMs using exact-match accuracy and character-level F1 for open-ended responses, observing substantial variation across subjects and strong sensitivity to visual reasoning demands. Human evaluation and LLM-as-judge analyses further assess the reliability of automatic scoring. Our dataset establishes a reproducible, human-grounded benchmark for multimodal educational reasoning and supports future research on evaluation, feedback generation, and explainable AI in authentic assessment contexts. Our dataset is available at: https://github.com/KyosukeTakami/gakucho-benchmark

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事