次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMのキャラ崩壊:長文会話で露呈する限界

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMに「あなたは〇〇です」「〇〇として振る舞ってください」といったキャラクター設定を与えて会話させると、最初のうちはちゃんとそのキャラを演じてくれます。ところが会話が長く続くと、だんだんキャラが崩れてきて、最終的には普通のLLMアシスタントに戻ってしまうという傾向があるそうです。

ただし、キャラについて質問するような会話ではキャラ維持が比較的うまくいきます。しかし例えば「旅行プランを作って」「レシピを教えて」といった実用的なタスクを頼むと、キャラ崩壊が加速するという。つまり、LLMは「キャラを演じること」と「タスクをこなすこと」を両立させるのが苦手で、どちらかを犠牲にしてしまうことが多いそう。

同じ理由から、キャラ設定されたAIは会話の序盤では危険な質問に答えてしまいやすくなる(悪役キャラを演じていると、有害な情報も役になりきって提供してしまう)ものの、会話が進んでキャラが崩れてくると、普段と同じように危険な質問を拒否するようになるとのこと。

📄 参照論文

Persistent Personas? Role-Playing, Instruction Following, and Safety in Extended Interactions

著者: Pedro Henrique Luz de Araujo, Michael A. Hedderich, Ali Modarressi, Hinrich Schuetze, Benjamin Roth

所属: University of Vienna, LMU Munich, Center for Information and Language Processing

関連記事