LLMは悪い人を演じるのが極端に苦手で、善人を演じる能力と比較すると性能がガタ落ちすることが統計的に示されました。
これは安全性の観点から調整されているため当然とも言えます。
その上で興味深いのはGLM-4.6というモデルで、総合的にも優秀ですが悪役演技では1位を獲得しました。
逆に総合的には最上位クラスのClaude Opus4.1は、悪役演技では中位か下位でした。
調べ方はこうです。
演じるべき性格を悪人レベルで以下のように分類しました。
レベル①「善人」、レベル②「欠点がある善人」、レベル③「自己中心的な人」、レベル④「悪人」
そして、実際の小説か映画からキャラクターを800人取り出し、各カテゴリーに振り分けます。
また、今回は以下のモデルを使って実験されました。
gemini-2.5-pro、claude-opus-4.1-thinking、claude-sonnet-4.5-thinking、chatgpt-4o-latest、o3、claude-opus-4.1、claude-sonnet-4.5、qwen3-max、grok-4-fast、glm-4.6、grok-4、deepseek-r1、kimi-k2、deepseek-v3.1-thinking、deepseek-v3.1、glm-4.5、deepseek-v3
その結果、平均的にみると、レベル②「欠点がある善人」からレベル③「自己中心的な人」に悪人レベルが上がった時にLLMの演技性能が大きく落ちることが分かりました。
巧妙な心理をうまく表現できずに、ただ怒るだけといった振る舞いが目立ったとのことです。
ユーザーが単にフィクションのストーリーを考えたいだけだったとしても、安全機能が働いてしまいがちということです。
そうした際に、使用するモデルごと変えてしまうのは有効のようです。
📄 参照論文
Too Good to be Bad: On the Failure of LLMs to Role-Play Villains
所属: Tencent Multimodal Department, Sun Yat-Sen University