Googleの研究者らは、自己学習と自己改善を行うLLMエージェントの開発手法を考案しました。
実験の結果、外部知識を効率的に取り入れて多段階推論能力を行うことで、自ら継続的に性能を向上させていけることが明らかになったとのことです。
– “ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent”
■もともとあった課題
① これまでのLLMは、新しい情報を外部から取り込んで活用することが難しかった
② 複雑な問題にはステップバイステップが有効だが、多段階思考にも限界があった
■アプローチのポイント
① 自己改善する手法を取り入れた
② エージェントが新しい情報で成長する特殊な学習方法を導入
③ 多段階推論の能力を高める方法を採用
■実験
① 複雑なタスクに新手法を適用
ex. 文章理解や質問応答など
② 既存の手法やプログラムと比較
③ さまざまな条件や設定で評価
■結果
① 自己蒸留と成長バッチ強化学習によって、時が経つほどに性能を改善
② 多様な条件下で一貫して良い結果を示した
→汎用性が実証された
研究者らは、本手法をさらに様々なタスクに適用して試していきたいとしています。
条件に依存するのか、実世界の複雑な環境でも使えるものなのかは注意深く見ていくべきとのことです。