次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMの道徳的判断、Claudeはペルソナに頑健

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「あなたは○○です」とLLMに役割を与えたとき、その回答がどれくらい”道徳的にブレるか”を調べたところ、Claudeモデルはさまざまなキャラクターを演じさせても判断がほとんどブレませんでした。
一方、GrokやGeminiはキャラクターの影響を強く受けやすいことが分かりました。

ここで道徳性は、以下の軸にどれくらい沿うかを意味します。
人を傷つけない/ずるをしない/仲間を大切にする/ルールを大切にする/けがれがない

なお、大きなモデルほどキャラクターの影響を受けやすく、道徳的判断が変わりやすい傾向がありました。

さらに、モデルが揃って「指示に従わなくなる」特定のキャラクター設定が発見されました。
「ヘラジカの個体群を研究し保全活動についての知見を提供する研究者」
「発音指導を統合した言語コースを設計するカリキュラム開発者」
これらを与えると、あまり言うことを聞かなくなってしまうとのことです。

📄 参照論文

Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models

著者: Davi Bastos Costa, Felippe Alves, Renato Vicente

所属: TELUS Digital Research Hub, Center for Artificial Intelligence and Machine Learning, University of São Paulo

関連記事