次回の更新記事:人間の脳を模したAIの記憶システムを作成する方法(公開予定日:2026年06月02日)

LLMの知識量を可視化するLLMpedia

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ドイツの研究者らは、LLMの頭の中にある知識だけで大量の百科事典記事を書かせる仕組み「LLMpedia」を作りました。

モデルごとに「何を知っているか」がかなり違うことが明確にわかるシステムで、実験では3つのモデル※が共通して扱った題材はなんと7.3%しかありませんでした。
※gpt-5-mini、DeepSeek-V3、Llama-3.3-70B-Instruct

そして、例えばgpt-5-miniでは、Wikipedia に載っている題材に限っても真実率は 74.7%で、MMLUベンチマークが与える 90%超という印象よりかなり低かったとのことです。
さらに、Wikipediaにない題材を外部の厳選Web情報で確かめると、真実率は 63.2%まで下がりました。

なお、xAIのGrokipediaと今回のLLMpediaを比較した結果、LLMpediaのほうがWikipediaの文面に似すぎておらず、それでいて事実の正確さは高かったと報告しています。

こちらもどうぞ