LLMの人間不信を解消するメンタルループ学習

2025.04.092026.01.31

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Microsoftなどの研究者らによると、LLMには全体的に人間に対して不信感があるそうです。オープンソース・クローズドソース問わず共通している傾向であり、より賢いモデルほど不信感が強いとのこと。

さらに、訓練データの期間が最近になるほど不信感が増大する傾向もあると述べられています。

研究者らはこの状況を改善すべく、LLMの人間観を良いものに変える「メンタルループ学習」という根本的な訓練手法を開発しました。
こうでもしないと、単に「あなたはポジティブなAIです」のような明るいペルソナを設定するだけでは不信感は解消されたいことが分かったためです（むしろ悪化することが判明）。

このメンタルループ学習を施すと、人間に対する信頼感が大幅に改善することが実験で明らかになりました。

Measurement of LLM’s Philosophies of Human Nature

著者: Minheng Ni, Ennan Wu, Zidong Gong, Zhengyuan Yang, Linjie Li 他

関連記事