LLMに敢えて間違わせてルールを覚えさせるプロンプト手法 Google DeepMindなどが考案

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

LLMが同じミスを避けるために、意図的に間違わせてルールを覚えさせる新しいプロンプト手法が提案されています。

本手法によって、モデルは自ら原則をまとめ上げ、未見の例にも適応します。実験では、GPT-3.5とGPT-4における複雑な質問応答や、数学の問題への性能向上が報告されています。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

  • タイトル:In-Context Principle Learning from Mistakes
  • 著者:Tianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, Uri Alon
  • 所属:UC Berkeley, Carnegie Mellon University, Google DeepMind, AI2.

背景

LLMが急速に進化する中、実用においては下流タスク(具体的で細分化されたタスク)の性能向上に注目が集まっています。そこで低コストな手法であるコンテキスト内学習(In-Context learning)が注目されています。いわゆるプロンプトエンジニアリングとも呼ばれる技術分野であり、OpenAIやGoogleといった基盤モデルの提供元も理論的なプロンプト構築を推奨しています。

コンテキスト内学習の中でも、「フューショットプロンプティング(Few-Shot Prompting)」と呼ばれる手法は汎用的に有用と言われています。LLMに少数の入出力例を提示し、未知の新しい入力に対する出力を生成するよう促すアプローチです。多くのタスクで非常に効率的ですが、これまでは正解の例から学習することにフォーカスされており、間違いから学ぶという重要な戦略は十分に活用されていません。

過去に行われてきた研究では、LLMが自身の出力を反省して改善する方法(Self-RefineやOptimization by PROmpting(OPRO)など)が探求されています。しかし、直接的なフィードバックや大量の訓練データを必要とするといった課題があります。

また、否定的な例から学習を促す手法(Contrastive Chain-of-Thought)も提案されましたが、一貫した改善をもたらすことまでは示せていませんでした。

こうした背景から、研究者らは「LEAP(Learning Principles)」という新しい手法を提案しています。モデルが与えられた例から間違いを犯し、それを振り返ることを促す手法です。最終的には明確なタスク固有の原理を形成することで、類似の誤りを避けることを可能にします。

下記では具体的な方法論と実際に使用できるプロンプトテンプレート、そして本手法の性能を示す実験結果を紹介します。

方法論

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP