LLMが自己報酬で性能向上

2024.01.19

学習手法（ファインチューニング、RLHF、事前学習、instruction tuning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Metaとニューヨーク大学は、LLMが自ら自分自身に報酬を与える「自己報酬言語モデル」を開発したと報告しています。

実験では、Claude 2、Gemini Pro、GPT-4などを凌駕する結果が得られているとのことです。

“Self-Rewarding Language Models”より

■これまでの状況
– 人間の好みに基づいて報酬が与えられる方式だった
– 訓練の最中に報酬モデルを改善できなかった

■研究者らの考え
– このままだと人間の能力レベルに収まるかもしれない
– モデルが訓練中に自らプロンプトを生成して報酬を与えるフレームワークを作ろう

■実験と結果
– Llama 2 70Bモデルを3回の反復で微調整した
（追加データは自己合成データを使用した）
– AlpacaEval 2.0リーダーボードで評価した
– Claude 2、Gemini Pro、GPT-4などを上回った

なお、評価に使用された「AlpacaEval 2.0リーダーボード」は、モデルがどれほど正確に情報を理解したり生成できるかを測定するものです。タスクとしては、言語理解、文章生成、情報提供、論理的思考が含まれているようです。

※まだこの研究は初期の段階にあることを研究者らは注意点として挙げています。

著者: 機関：Meta, NYU

こちらもどうぞ