AI、中学生テストの図解読解に苦戦

2026.05.14

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

日本の中学生向けテストは、最新AIにとって意外と難しい。

全国学力テスト（中学校・2022年度）を素材に、最新のマルチモーダルAIが本当に「図を見て」答えているのかを検証できるベンチマークを大阪教育大学・東京大学・NIIの研究者らが開発。

実験の結果、たとえば漢字の書き取りに至っては、試したモデルがどれも正しい字を組み立てられず、揃ってお手上げだったそうです。

他にも、縦書きや漢字のかたち、図中の文字を読む問題でもつまずき、「画像の文をそのまま引用して」と頼んでも、もっともらしく捏造した文を返すモデルもあったそうです。

今のAIは図そのものより、言語的な手がかりに寄りかかって答えている様子がうかがえます。
検証されたのはGPT-5やGemini、Claudeなど。

（一方で数学の記述問題では、中学生の平均正答率53%に対し、90%まで届くモデルもあったそうです）

こちらもどうぞ