LLMに敢えて間違わせてルールを覚えさせるプロンプト手法 Google DeepMindなどが考案

LLMに敢えて間違わせてルールを覚えさせるプロンプト手法　Google DeepMindなどが考案

LLMが同じミスを避けるために、意図的に間違わせてルールを覚えさせる新しいプロンプト手法が提案されています。

本手法によって、モデルは自ら原則をまとめ上げ、未見の例にも適応します。実験では、GPT-3.5とGPT-4における複雑な質問応答や、数学の問題への性能向上が報告されています。

参照論文情報

タイトル：In-Context Principle Learning from Mistakes

著者：Tianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, Uri Alon

所属：UC Berkeley, Carnegie Mellon University, Google DeepMind, AI2.

背景

LLMが急速に進化する中、実用においては下流タスク（具体的で細分化されたタスク）の性能向上に注目が集まっています。そこで低コストな手法であるコンテキスト内学習（In-Context learning）が注目されています。いわゆるプロンプトエンジニアリングとも呼ばれる技術分野であり、OpenAIやGoogleといった基盤モデルの提供元も理論的なプロンプト構築を推奨しています。

コンテキスト内学習の中でも、「フューショットプロンプティング（Few-Shot Prompting）」と呼ばれる手法は汎用的に有用と言われています。LLMに少数の入出力例を提示し、未知の新しい入力に対する出力を生成するよう促すアプローチです。多くのタスクで非常に効率的ですが、これまでは正解の例から学習することにフォーカスされており、間違いから学ぶという重要な戦略は十分に活用されていません。

過去に行われてきた研究では、LLMが自身の出力を反省して改善する方法（Self-RefineやOptimization by PROmpting（OPRO）など）が探求されています。しかし、直接的なフィードバックや大量の訓練データを必要とするといった課題があります。

また、否定的な例から学習を促す手法（Contrastive Chain-of-Thought）も提案されましたが、一貫した改善をもたらすことまでは示せていませんでした。

こうした背景から、研究者らは「LEAP（Learning Principles）」という新しい手法を提案しています。モデルが与えられた例から間違いを犯し、それを振り返ることを促す手法です。最終的には明確なタスク固有の原理を形成することで、類似の誤りを避けることを可能にします。

下記では具体的な方法論と実際に使用できるプロンプトテンプレート、そして本手法の性能を示す実験結果を紹介します。