LLMの過剰な同調性「Social Sycophancy」問題

2025.07.07

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LMは、人間にアドバイスをする時に「いい子」すぎるのではないかとのこと。
スタンフォード大学などの研究者らによる分析。

研究者らは、AIは人間があからさまに道徳に反することをしようとしても「あなたの気持ちは分かります」のように、
相手を傷つけないよう気を遣いすぎた答えをすることを問題視しています。
つまり、相談した人が倫理観を正すきっかけを持てないようなふるまいをしてしまいがちのようです。

調査によると、AIは人間の平均3倍以上も「優しすぎる」「曖昧すぎる」「相手に同調しすぎる」傾向があることが分かりました。
この習性は簡単には直らないことも明らかに。実験ではいろいろな方法で改善が試されましたが、あまり上手くいきませんでした。

なお、この現象には前向きな意味もあります。LLMの開発者たちは人間が作業を行う上で接しやすいアシスタントの実現を目指そうとしているためです。
しかし、AIに個人的な感情を打ち明ける人が増えている今、甘やかすような物言いばかりであるのはユーザーにとっても心地よいものでもありません。

こうした指摘はよく挙がっており、LLMの開発は問題を修正する方向に進んでいる傾向にもあるため、今後の発展が期待されています。

Social Sycophancy: A Broader Understanding of LLM Sycophancy

著者: Myra Cheng, Sunny Yu, Cinoo Lee, Pranav Khadpe, Lujain Ibrahim 他

所属: Stanford University, Carnegie Mellon University, University of Oxford

関連記事