次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMはもっともらしい偽情報に弱い

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

今のAIはWikipedia風や科学論文風に嘘を書かれると鵜呑みにしやすい一方で、ブログのようなカジュアルな文体には比較的強いことが明らかになったとのこと。

なお、嘘を見抜く能力を大きく向上させる方法もあり、その一つは「情報を比較させること」だそうです。また、
古くて時代遅れの情報には比較的敏感に反応できるようです。

要するに、現在のLLMは見た目がもっともらしい偽情報に弱いものの、比較を通じて嘘を見抜く力を持っています。適切な工夫をすれば、この弱点は克服可能であることが示されました。

実験では、1000万件以上の偽情報を人工的に作成し、さまざまなLLMをテストしています。

📄 参照論文

How does Misinformation Affect Large Language Model Behaviors and Preferences?

著者: Miao Peng, Nuo Chen, Jianheng Tang, Jia Li

所属: The Hong Kong University of Science and Technology (Guangzhou), The Hong Kong University of Science and Technology

関連記事