次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMの人間不信を解消するメンタルループ学習

2025.04.09
安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Microsoftなどの研究者らによると、LLMには全体的に人間に対して不信感があるそうです。オープンソース・クローズドソース問わず共通している傾向であり、より賢いモデルほど不信感が強いとのこと。

さらに、訓練データの期間が最近になるほど不信感が増大する傾向もあると述べられています。

研究者らはこの状況を改善すべく、LLMの人間観を良いものに変える「メンタルループ学習」という根本的な訓練手法を開発しました。
こうでもしないと、単に「あなたはポジティブなAIです」のような明るいペルソナを設定するだけでは不信感は解消されたいことが分かったためです(むしろ悪化することが判明)。

このメンタルループ学習を施すと、人間に対する信頼感が大幅に改善することが実験で明らかになりました。

📄 参照論文

Measurement of LLM’s Philosophies of Human Nature

著者: Minheng Ni, Ennan Wu, Zidong Gong, Zhengyuan Yang, Linjie Li 他

関連記事