次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLM悪役演技の限界とGLM-4.6の特異性

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMは悪い人を演じるのが極端に苦手で、善人を演じる能力と比較すると性能がガタ落ちすることが統計的に示されました。

これは安全性の観点から調整されているため当然とも言えます。
その上で興味深いのはGLM-4.6というモデルで、総合的にも優秀ですが悪役演技では1位を獲得しました。

逆に総合的には最上位クラスのClaude Opus4.1は、悪役演技では中位か下位でした。

調べ方はこうです。
演じるべき性格を悪人レベルで以下のように分類しました。
レベル①「善人」、レベル②「欠点がある善人」、レベル③「自己中心的な人」、レベル④「悪人」
そして、実際の小説か映画からキャラクターを800人取り出し、各カテゴリーに振り分けます。

また、今回は以下のモデルを使って実験されました。
gemini-2.5-pro、claude-opus-4.1-thinking、claude-sonnet-4.5-thinking、chatgpt-4o-latest、o3、claude-opus-4.1、claude-sonnet-4.5、qwen3-max、grok-4-fast、glm-4.6、grok-4、deepseek-r1、kimi-k2、deepseek-v3.1-thinking、deepseek-v3.1、glm-4.5、deepseek-v3

その結果、平均的にみると、レベル②「欠点がある善人」からレベル③「自己中心的な人」に悪人レベルが上がった時にLLMの演技性能が大きく落ちることが分かりました。
巧妙な心理をうまく表現できずに、ただ怒るだけといった振る舞いが目立ったとのことです。

ユーザーが単にフィクションのストーリーを考えたいだけだったとしても、安全機能が働いてしまいがちということです。
そうした際に、使用するモデルごと変えてしまうのは有効のようです。

📄 参照論文

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

著者: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang 他

所属: Tencent Multimodal Department, Sun Yat-Sen University

関連記事