LLMに敢えて間違わせてルールを覚えさせ同じミスを避けるようにする新しいプロンプト手法が提案されています。
実験では複雑な質問応答や、数学の問題への性能向上が確認されたとのことです。
“In-Context Principle Learning from Mistakes”より
■背景、課題
– LLMは通常、正しい答えが示された例から学習するが、限界がある
– 間違いから学ぶことで、モデルの理解と問題解決能力を高められる可能性がある
– そのための新アプローチが必要である
■新アプローチ
1. モデルが間違いを犯すように促す
2. モデル自身に、間違いに対する説明を生成させ、まずは低レベルの原則を形成。
3. 低レベルの原則をまとめ、約5つのキーポイントに圧縮して高レベルの原則を生成
4. 高レベルの原則を未見の例に対する応答を生成する際に利用
■実験と結果
実験と結果の要約:
– GPT-3.5-TurboとGPT-4の質問応答性能が一貫して改善され、GPT-4が7.5%の改善を見せた
– 数学推論タスクでもGPT-3.5-turboとGPT-4で基準を上回る結果を示した
– Big-Bench Hardタスクでもスコアが一定程度上昇した