LLMが自分の生成したデータで自ら改善を行う自己学習フレームワーク『SECToR』が考案されました。
CoTの複数ステップによる推論と「多数決」の仕組みに基づいています。
ある側面からは、人間の訓練データへの依存から脱却するパラダイムを導入する可能性のある技術です。
@ “Chain-of-Thought Reasoning is a Policy Improvement Operator”
論文によると、LLMは自分で学習する能力に欠けています。つまり、人間が生成したトレーニングデータに依存しているのが現状とのことです。
自分で学習させる(自己学習の)研究は行われてきましたが、改善プロセスがすぐに停止してしまう問題がありました。
そこで研究者らは、CoTを自ら使用して自己学習を行う新しいフレームワーク『SECToR(Self-Education via Chain-of-Thought Reasoning)』を開発しました。
■『SECToR』のポイント
① 思考の連鎖における推論を使用
② モデルが自ら生成したデータで自己改善を行う
③ 従来よりも長く効率的で、数学で特に性能を発揮
■技術の紹介
① 連鎖推論を改善オペレータとして利用
② 自己一貫性チェックでエラー防止
③ 簡素化ステップを経て「多数決」で答えの推測結果を出す
■性能評価データ
① 数学ベンチマークで実験
② 自己学習を通じて29桁の加算を98%以上の精度で行うように発展
③ 22ステップの自己改善で達成
■そもそも自己学習/自己改善とは
① モデルが独自に解決策を生成
② 連鎖推論で問題を解決後はゼロショットで実行可能に
③ 自身でトレーニングデータを生成
本研究は、言語モデルの従来の課題である自己学習の精度を飛躍的に高めるポテンシャルのある技術を開発しています。
実験では数学に特化して性能が評価されていますが、他の分野への応用も期待されています。
📄 参照論文
論文情報と関連研究