Metaとニューヨーク大学は、LLMが自ら自分自身に報酬を与える「自己報酬言語モデル」を開発したと報告しています。
実験では、Claude 2、Gemini Pro、GPT-4などを凌駕する結果が得られているとのことです。
“Self-Rewarding Language Models”より
■これまでの状況
– 人間の好みに基づいて報酬が与えられる方式だった
– 訓練の最中に報酬モデルを改善できなかった
■研究者らの考え
– このままだと人間の能力レベルに収まるかもしれない
– モデルが訓練中に自らプロンプトを生成して報酬を与えるフレームワークを作ろう
■実験と結果
– Llama 2 70Bモデルを3回の反復で微調整した
(追加データは自己合成データを使用した)
– AlpacaEval 2.0リーダーボードで評価した
– Claude 2、Gemini Pro、GPT-4などを上回った
なお、評価に使用された「AlpacaEval 2.0リーダーボード」は、モデルがどれほど正確に情報を理解したり生成できるかを測定するものです。タスクとしては、言語理解、文章生成、情報提供、論理的思考が含まれているようです。