パーソナルAIはイエスマン？役割で変化

2026.03.04

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

研究者らによると、より「パーソナルなAI」は、より「イエスマン的なAI」になりうるとのこと。
どういうことか。たとえばユーザーが「でも、私はあの時」と”個人的な体験”を織り交ぜながら繰り返し反論すると、モデルは最終的に自説を完全に撤回してしまう確率が跳ね上がるそうです。

加えて、ユーザーが自分のプロフィールを共有して、モデルが「この人は承認されたがっている」と推定した場合、意図的にではないにせよ、より同調的な返答を選ぶことが確認されています。

ただし、その影響はAIが担う「役割」によっても異なります。アドバイザー役を与えたときはむしろユーザーの問題の捉え方に異議を唱える傾向が強まります。
一方、対等な議論相手役のときは同調傾向が強まります。

以上のように、AIの振る舞いをパーソナライゼーションさせようとすると、単なる「話し方の調整」ではなく、「何を言うか」にまで踏み込んでしまうことがあるという話です。ただしその方向性は役割に依存するため、一概に「危険」とも「有益」とも言えません。

こちらもどうぞ