複数ターンで変わるLLMの振る舞い、タスクごとにどう違うか安定性と崩壊の境目を探る

本記事では、複数ターンで変わるLLMの振る舞いと、その違いをタスク別に検証した研究を紹介します。

創造、コーディング、数学の三つの領域で、反復プロンプトが出力にどう影響するかを調べています。一見シンプルに見えるやりとりでも、モデルの挙動には意外な変化が現れることがあります。

背景

LLMとのやりとりが一問一答ではなく複数回に及ぶ方は多いのではないでしょうか。対話を重ねながら少しずつ出力を改善していく使い方は広く定着しつつあります。その背景に、モデルが人の反応に応じて、柔軟に振る舞うよう調整されている仕組みがあります。

しかし、実際には、複数ターンの対話で性能が下がることもあると報告されています。何げない反復プロンプトが、かえって誤信や事実誤認を誘発することもあり、自己修正の不安定さが課題とされています。やりとりが長くなるほど、過去の履歴を適切に参照できず、自分自身の出力に振り回される「モデル崩壊」も懸念されています。

こうした状況を踏まえ、本記事は次の3点に注目した研究を取り上げます。他ターン会話による改善は言葉の使い方や指示の細かさにどれほど影響を受けるのか。どのような条件で効果を発揮し、どのような場面でうまく機能しなくなるのか。そして問題が起きた場合、どのモデルでも同じように崩れてしまうのか。

以下で詳しく見ていきましょう。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

主要LLM各社のプライバシーポリシー比較　ユーザーのデータはどう扱われるか

今週の注目AI論文リスト（論文公開日2025/9/8～9/12）

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。