対話の中でユーザーの好みを学ぶ手法『CIPHER』 (プロンプトテンプレートあり)

   

本記事では、LLMとユーザーの対話の中で得られるユーザーフィードバックを活用してLLMの応答をパーソナライズする新手法を紹介します。

モデルを個別のユーザーに対してパーソナライズする方法はいくつか考案されてきましたが、最適なアプローチはまだ見つかっていません。そんな中、今回Cornell大学やMicrosoftの研究者らは、対話の中で自然に得られるユーザーからの返事をフィードバックとして活用する効率的な手法を提案しています。

この手法を使うとモデルがユーザーの好みを解釈して自然言語で説明できる点も特徴となっています。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。


参照論文情報

  • タイトル:Aligning LLM Agents by Learning Latent Preference from User Edits
  • 著者:Ge Gao, Alexey Taymanov, Eduardo Salinas, Paul Mineiro, Dipendra Misra
  • 研究機関:Cornell University, Microsoft Research

背景

LLMやLLMエージェントは、様々なアプリケーションで活用されるようになってきました。しかし、個々のユーザーや特定のタスクに適応するパーソナライズ機能においてはまだ十分とは言えません。

従来のフィードバック手法、例えば比較ベースの強化学習などは、専門の注釈者に複数のモデル応答を提示して順位付けをしてもらう必要があるため、コストがかかります。

さらに現実問題、各ユーザー向けにLLMエージェントをパーソナライズするのは本来であれば非常にコストがかかります。もしLLMのパラメータを微調整するとなれば、安全性が失われるリスクもあります。

そこでCornell大学やMicrosoftの研究者らは「対話の中で得られるユーザーのフィードバックも、LLMエージェントがユーザーの好みを学ぶ貴重な情報源なのではないか」と考えました。

多くのアプリケーションでは、ユーザーはLLMの出力に対して訂正を行うことがよくあります。つまり、ユーザーはLLMに指示を出して出力を得ますが、最終的にはLLMの応答をユーザーが必要なだけ編集して使用しているのです。

研究者らは、これまでの提案手法に代わるものとして「ユーザーの嗜好を推論し、応答生成に利用するプロンプトポリシーの学習」に焦点を当てることにしました。これはコスト効率、安全性の両面から優れたアプローチとなる可能性があります。

以下で手法や実験結果を紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP