LLMに「あなたは〇〇です」「〇〇として振る舞ってください」といったキャラクター設定を与えて会話させると、最初のうちはちゃんとそのキャラを演じてくれます。ところが会話が長く続くと、だんだんキャラが崩れてきて、最終的には普通のLLMアシスタントに戻ってしまうという傾向があるそうです。
ただし、キャラについて質問するような会話ではキャラ維持が比較的うまくいきます。しかし例えば「旅行プランを作って」「レシピを教えて」といった実用的なタスクを頼むと、キャラ崩壊が加速するという。つまり、LLMは「キャラを演じること」と「タスクをこなすこと」を両立させるのが苦手で、どちらかを犠牲にしてしまうことが多いそう。
同じ理由から、キャラ設定されたAIは会話の序盤では危険な質問に答えてしまいやすくなる(悪役キャラを演じていると、有害な情報も役になりきって提供してしまう)ものの、会話が進んでキャラが崩れてくると、普段と同じように危険な質問を拒否するようになるとのこと。
📄 参照論文
Persistent Personas? Role-Playing, Instruction Following, and Safety in Extended Interactions
所属: University of Vienna, LMU Munich, Center for Information and Language Processing