日本の中学生向けテストは、最新AIにとって意外と難しい。
全国学力テスト(中学校・2022年度)を素材に、最新のマルチモーダルAIが本当に「図を見て」答えているのかを検証できるベンチマークを大阪教育大学・東京大学・NIIの研究者らが開発。
実験の結果、 たとえば漢字の書き取りに至っては、試したモデルがどれも正しい字を組み立てられず、揃ってお手上げだったそうです。
他にも、縦書きや漢字のかたち、図中の文字を読む問題でもつまずき、「画像の文をそのまま引用して」と頼んでも、もっともらしく捏造した文を返すモデルもあったそうです。
今のAIは図そのものより、言語的な手がかりに寄りかかって答えている様子がうかがえます。
検証されたのはGPT-5やGemini、Claudeなど。
(一方で数学の記述問題では、中学生の平均正答率53%に対し、90%まで届くモデルもあったそうです)