ドイツの研究者らは、LLMの頭の中にある知識だけで大量の百科事典記事を書かせる仕組み「LLMpedia」を作りました。
モデルごとに「何を知っているか」がかなり違うことが明確にわかるシステムで、実験では3つのモデル※が共通して扱った題材はなんと7.3%しかありませんでした。
※gpt-5-mini、DeepSeek-V3、Llama-3.3-70B-Instruct
そして、例えばgpt-5-miniでは、Wikipedia に載っている題材に限っても真実率は 74.7%で、MMLUベンチマークが与える 90%超という印象よりかなり低かったとのことです。
さらに、Wikipediaにない題材を外部の厳選Web情報で確かめると、真実率は 63.2%まで下がりました。
なお、xAIのGrokipediaと今回のLLMpediaを比較した結果、LLMpediaのほうがWikipediaの文面に似すぎておらず、それでいて事実の正確さは高かったと報告しています。