LLMのキャラ崩壊：長文会話で露呈する限界

2025.12.28

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMに「あなたは〇〇です」「〇〇として振る舞ってください」といったキャラクター設定を与えて会話させると、最初のうちはちゃんとそのキャラを演じてくれます。ところが会話が長く続くと、だんだんキャラが崩れてきて、最終的には普通のLLMアシスタントに戻ってしまうという傾向があるそうです。

ただし、キャラについて質問するような会話ではキャラ維持が比較的うまくいきます。しかし例えば「旅行プランを作って」「レシピを教えて」といった実用的なタスクを頼むと、キャラ崩壊が加速するという。つまり、LLMは「キャラを演じること」と「タスクをこなすこと」を両立させるのが苦手で、どちらかを犠牲にしてしまうことが多いそう。

同じ理由から、キャラ設定されたAIは会話の序盤では危険な質問に答えてしまいやすくなる（悪役キャラを演じていると、有害な情報も役になりきって提供してしまう）ものの、会話が進んでキャラが崩れてくると、普段と同じように危険な質問を拒否するようになるとのこと。

📄 参照論文

Persistent Personas? Role-Playing, Instruction Following, and Safety in Extended Interactions

著者: Pedro Henrique Luz de Araujo, Michael A. Hedderich, Ali Modarressi, Hinrich Schuetze, Benjamin Roth

所属: University of Vienna, LMU Munich, Center for Information and Language Processing

📎 論文を読む（doi.org）

X（Twitter）で見る

LLMのキャラ崩壊：長文会話で露呈する限界

📄 参照論文

関連記事

🔒 Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか

🔒 LLMをエージェントとして既存ゲームシステムに導入し、NPCをAI化するツールの開発事例

🔒 プロンプトによるLLM応答のパーソナライゼーション　仮説を活用して文体を調整

🔒 100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証　40%まで達成

🔒 RAGの検索精度を実務レベルに高めるには、「情報ごとに ”質問文” を作りデータベースに入れる」のが効果的との報告

🔒 LLMを使用する知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著との調査結果

📄 参照論文

📚 関連記事

関連記事

🔒 Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか

🔒 LLMをエージェントとして既存ゲームシステムに導入し、NPCをAI化するツールの開発事例

🔒 プロンプトによるLLM応答のパーソナライゼーション 仮説を活用して文体を調整

🔒 100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証 40%まで達成

🔒 RAGの検索精度を実務レベルに高めるには、「情報ごとに ”質問文” を作りデータベースに入れる」のが効果的との報告

🔒 LLMを使用する知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著との調査結果

🔒 プロンプトによるLLM応答のパーソナライゼーション　仮説を活用して文体を調整

🔒 100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証　40%まで達成