LLMの知識量を可視化するLLMpedia

2026.03.30

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ドイツの研究者らは、LLMの頭の中にある知識だけで大量の百科事典記事を書かせる仕組み「LLMpedia」を作りました。

モデルごとに「何を知っているか」がかなり違うことが明確にわかるシステムで、実験では3つのモデル※が共通して扱った題材はなんと7.3％しかありませんでした。
※gpt-5-mini、DeepSeek-V3、Llama-3.3-70B-Instruct

そして、例えばgpt-5-miniでは、Wikipedia に載っている題材に限っても真実率は 74.7％で、MMLUベンチマークが与える 90％超という印象よりかなり低かったとのことです。
さらに、Wikipediaにない題材を外部の厳選Web情報で確かめると、真実率は 63.2％まで下がりました。

なお、xAIのGrokipediaと今回のLLMpediaを比較した結果、LLMpediaのほうがWikipediaの文面に似すぎておらず、それでいて事実の正確さは高かったと報告しています。

X（Twitter）で見る

LLMの知識量を可視化するLLMpedia

こちらもどうぞ

🔒 今週の注目AI論文リスト（論文公開日2025/7/28～8/1）

🔒 Vibe CodingとAgentic Codingの現在地【後編】～それぞれの活用ケース～