LLM自律進化へ、自己生成データ学習の可能性

2023.12.12

学習手法（ファインチューニング、RLHF、事前学習、instruction tuning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

DeepMindの研究者らは、人間が作成したデータに依存する現状は今後のLLMにとって良くないと考えました。
そこで、LLMに自ら高品質なデータを生成させ、データセットを拡張する「自己学習」アプローチを開発しました。

結果、自己生成データによって能力向上が確認されたとのことです。

– “Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models”

人間が作ったデータを使う仕組みには、質も量も限界があり、さらにデータの偏りはLLMの偏りにつながります。

そこで研究者らは、LLMが自分自身によって高品質な訓練データを作成し学ぶ仕組みを考案しました。

■考案したアプローチのポイント
① 自らデータセットを拡張する
② 生成したデータが正しいかどうかを判断する
③ 数学を中心とした様々な問題解決に使える

■有効性の確認実験
① 数学問題解決タスクを中心に設計
② モデル生成／人間作成データを比較分析
③ ファインチューニング

■実験結果
① 数学において、正答率の向上を達成
② 異なるタイプの問題に対するモデルの適応能力が向上

→人間作成データなしで能力が向上

研究者らは、自己学習はLLMにとって将来性のあるアプローチになると述べており、他の領域においても試していくべきとしています。

現在は特定のモデルと限られたタスクで検証が完了しているため、適用性をさらに調査していくべきとのことです。

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ