次回の更新記事:人間の脳を模したAIの記憶システムを作成する方法(公開予定日:2026年06月02日)

AI、中学生テストの図解読解に苦戦

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

日本の中学生向けテストは、最新AIにとって意外と難しい。

全国学力テスト(中学校・2022年度)を素材に、最新のマルチモーダルAIが本当に「図を見て」答えているのかを検証できるベンチマークを大阪教育大学・東京大学・NIIの研究者らが開発。

実験の結果、 たとえば漢字の書き取りに至っては、試したモデルがどれも正しい字を組み立てられず、揃ってお手上げだったそうです。

他にも、縦書きや漢字のかたち、図中の文字を読む問題でもつまずき、「画像の文をそのまま引用して」と頼んでも、もっともらしく捏造した文を返すモデルもあったそうです。

今のAIは図そのものより、言語的な手がかりに寄りかかって答えている様子がうかがえます。
検証されたのはGPT-5やGemini、Claudeなど。

(一方で数学の記述問題では、中学生の平均正答率53%に対し、90%まで届くモデルもあったそうです)

こちらもどうぞ