特定の個人の好みやニーズに最も適したレスポンスや行動を行うLLMを開発する手法、『Personalized Soups(意訳:ぼくだけのためのスープ)』が開発されました。
RLHF(人間のフィードバックによる強化学習)を個人に適用することで実現します。
ワシントン大学やカリフォルニア大学などの研究者らによる報告です。
@ Joel Jang et al., “Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging”
RLHFは、一般的な人間の好みに合わせてLLMを調整するために、極めて有望な手法として知られています。
しかし、個人に特化する用途では最適ではありませんでした。
そこで研究者らは「個人のフィードバックからの強化学習(RLPHF)」フレームワークを提案しています。
■RLPHFフレームワークの概要
① 複数の目標を同時に考慮するモデル(多目的強化学習)として設計
② 複数の対立する目的を同時に持てるモデルを訓練する
■フレームワークの評価実験
GPT-4とTulu-7Bを用いて、対立する好みに基づいてペアワイズのフィードバックデータを収集
■実験の結果
RLPHFは、下記の方法よりも個々のユーザーに対するより深いレベルの適応が可能だと評価されました。
・教師ありの微調整
・RLHF
・プロンプト
■実装方法・使い方
以下二つの方法が提案されています。
① PROMPTED-MORL:プロンプトで目的の重要度を動的に変更
② PERSONALIZED SOUPS:ポリシーを個別に最適化して、推論時にパラメータを合成する
なお、GitHubにコードが公開されています。
■主な結論
① RLPHFは、多様な個々の人間の好みに効率的に適応することができる
② PERSONALIZED SOUPSはパラメータの合成を通じて効率的に複数の好みを組み合わせることができる