LLMが「自分自身の過去と対戦する」ことで能力を磨くことを可能にする手法が開発されたとのことです。
実験では様々なテストスコアが上昇したとされています。
手法の名称は『Self-Play Fine-Tuning(SPIN)』と付けられています。
“Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models”より
カリフォルニア大学の研究者らによる報告です。
■自分自身の過去と対戦するとは
1. 過去の自分(イテレーション)を参照する
2. 生成したデータに対して応答し改善する
3. 上記のプロセスを繰り返す
→自己学習の一種
(自己対戦型ファインチューニングと命名)
■実験と結果
1. Mistral-7BベースのモデルにSPINを適用した
2. 複数のNLPタスクを対象に評価した
3. モデルの性能が軒並み向上した
4. テキスト生成タスクでの改善が顕著だった
今後、さまざまな言語モデルに適用したいと述べられています。
その中で、モデルやタスクによって効果がどう異なるのかを調べていくとしています。