「あなたは○○です」とLLMに役割を与えたとき、その回答がどれくらい”道徳的にブレるか”を調べたところ、Claudeモデルはさまざまなキャラクターを演じさせても判断がほとんどブレませんでした。
一方、GrokやGeminiはキャラクターの影響を強く受けやすいことが分かりました。
ここで道徳性は、以下の軸にどれくらい沿うかを意味します。
人を傷つけない/ずるをしない/仲間を大切にする/ルールを大切にする/けがれがない
なお、大きなモデルほどキャラクターの影響を受けやすく、道徳的判断が変わりやすい傾向がありました。
さらに、モデルが揃って「指示に従わなくなる」特定のキャラクター設定が発見されました。
「ヘラジカの個体群を研究し保全活動についての知見を提供する研究者」
「発音指導を統合した言語コースを設計するカリキュラム開発者」
これらを与えると、あまり言うことを聞かなくなってしまうとのことです。
📄 参照論文
Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models
所属: TELUS Digital Research Hub, Center for Artificial Intelligence and Machine Learning, University of São Paulo