反復学習でCoTによる推論性能を向上させる手法 Metaとニューヨーク大学による研究

LLMは論理的な推論をする能力が限られており、特に数学や科学の問題では精度が低いという課題があります。そこでMetaとニューヨーク大学の研究チームは、複数の推論ステップを繰り返し行うことでモデルの答えをより正確にする新しい方法を考案しました。結果として、他の従来モデルを上回る高い精度を達成しました。

参照論文情報

タイトル：Iterative Reasoning Preference Optimization

著者：Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston

所属：FAIR at Meta, New York University

背景

これまで、LLMの推論能力を向上させる手法の研究は、数多く行われてきました。その中でも、特に注目されてきたプロンプト・学習手法には、以下のようなものがあります。

Chain-of-Thought (CoT): LLMに一連の推論ステップを生成させることで、推論能力を向上させる手法

STaR (Self-Taught Reasoning) : CoTを生成し、正解を導く推論のみを用いて反復的にSFT (Supervised Fine-Tuning、教師付きファインチューニング)を行う手法

V-STaR : DPO（Direct Preference Optimization）で学習した検証モデルを用いてSFTの生成サンプルをフィルタリングする手法

Expert Iteration : 報酬モデルを仮定し、生成サンプルをフィルタリングしてSFTを反復的に行う手法

また、反復的なPreference Optimization（モデルの出力が人間の選好や価値観に合うように最適化するための手法）に関する研究についても盛んに行われ、以下のような手法が提案されてきました。

Iterative DPO : DPOを用いて選好ペアを最適化し、更新されたモデルで新たな選好ペアを生成する反復的な手法。

Self-Rewarding LLMs : LLM自身を報酬モデルとして用いたIterative DPO。

SPIN : 人間のラベルをWinner、前の反復の生成サンプルをLoserとするIterative DPOに類似した手法。

これらの既存の反復的な学習手法は、一般的な指示に対するチューニングでは良い性能を発揮します。しかし、この学習方法においては、LLMの推論LLMを向上できないというのが現状です。

そこで今回、LLMの推論性能を向上させるために、新たな学習方法「Iterative Reasoning Preference Optimization」が開発されました。この手法によって、LLMの推論タスクにおける性能を引き伸ばせるだけでなく、Human-in-the-Loop（機械学習モデルの学習プロセスに、人間を関与させる手法）や追加データを不要とするため、効率的に学習を進められます。