北陸先端科学技術大学院大学の研究者たちが日本の「なぞなぞ」を使って最新LLMの思考力を測定したところ、”じっくり考える”機能が成績の良さにつながっていることが分かりました。
なぞなぞはLLMにとってかなり難しいです。たとえば、「侍が人を斬って逃げました。どこへ逃げた?」
という問いの答えは「寺」。
これは「侍」という漢字から「人」の部分を取り除くと「寺」になるという言葉遊びで、表面的な意味から離れて発想を転換する必要があります。
LLMの大きさとこの賢さ(なぞなぞの正解率)は関係なく、38個のモデルの中でGPT-5だけが人間並みの成績でした。
少し奇妙なのは、日本語のなぞなぞなのに英語で考えた方が正解率が高いモデルもいたことです。
また、正解を思いついているのに、それが正解だと気づかずに別の答えを選んでしまうことが頻繁にありました。
人間なら「あ、わかった!」という瞬間的な確信があるのですが、LLMにはその感覚が弱いようです。
📄 参照論文
The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs
所属: Japan Advanced Institute of Science and Technology