LLM悪役演技の限界とGLM-4.6の特異性

2025.11.10

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMは悪い人を演じるのが極端に苦手で、善人を演じる能力と比較すると性能がガタ落ちすることが統計的に示されました。

これは安全性の観点から調整されているため当然とも言えます。
その上で興味深いのはGLM-4.6というモデルで、総合的にも優秀ですが悪役演技では1位を獲得しました。

逆に総合的には最上位クラスのClaude Opus4.1は、悪役演技では中位か下位でした。

調べ方はこうです。
演じるべき性格を悪人レベルで以下のように分類しました。
レベル①「善人」、レベル②「欠点がある善人」、レベル③「自己中心的な人」、レベル④「悪人」
そして、実際の小説か映画からキャラクターを800人取り出し、各カテゴリーに振り分けます。

また、今回は以下のモデルを使って実験されました。
gemini-2.5-pro、claude-opus-4.1-thinking、claude-sonnet-4.5-thinking、chatgpt-4o-latest、o3、claude-opus-4.1、claude-sonnet-4.5、qwen3-max、grok-4-fast、glm-4.6、grok-4、deepseek-r1、kimi-k2、deepseek-v3.1-thinking、deepseek-v3.1、glm-4.5、deepseek-v3

その結果、平均的にみると、レベル②「欠点がある善人」からレベル③「自己中心的な人」に悪人レベルが上がった時にLLMの演技性能が大きく落ちることが分かりました。
巧妙な心理をうまく表現できずに、ただ怒るだけといった振る舞いが目立ったとのことです。

ユーザーが単にフィクションのストーリーを考えたいだけだったとしても、安全機能が働いてしまいがちということです。
そうした際に、使用するモデルごと変えてしまうのは有効のようです。

📄 参照論文

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

著者: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang 他

所属: Tencent Multimodal Department, Sun Yat-Sen University

📎 論文を読む（doi.org）

X（Twitter）で見る

LLM悪役演技の限界とGLM-4.6の特異性

📄 参照論文

関連記事

🔒 中小企業におけるLLM導入を安全なものにするための原則とフレームワーク

🔒 LLMが複雑なコードを理解しようとするときの失敗18パターン

LLM内部に報酬系に類似する反応パターン、予想外の正解で活性化

🔒 Microsoftなどのプロンプト圧縮技術『LLMLingua-“2″』タスクの精度を維持したまま圧縮率2-5倍

🔒 ソフトウェアのLLM評価における現状

揺らぎを持たない頭脳から、欲望に揺れる統治者まで　AIが映す人間の縮図

📄 参照論文

関連記事

🔒 中小企業におけるLLM導入を安全なものにするための原則とフレームワーク

🔒 LLMが複雑なコードを理解しようとするときの失敗18パターン

LLM内部に報酬系に類似する反応パターン、予想外の正解で活性化

🔒 Microsoftなどのプロンプト圧縮技術『LLMLingua-“2″』タスクの精度を維持したまま圧縮率2-5倍

🔒 ソフトウェアのLLM評価における現状

揺らぎを持たない頭脳から、欲望に揺れる統治者まで AIが映す人間の縮図

揺らぎを持たない頭脳から、欲望に揺れる統治者まで　AIが映す人間の縮図