LLMに敢えて間違わせてルールを覚えさせるプロンプト手法 Google DeepMindなどが考案

   
★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。
★コンサルティングサポート(調査・研修・開発支援)をご希望の方はお問合せください。

大規模言語モデル(LLM)に意図的に間違わせてルールを覚えさせ、同じミスを避けるようにする新しいプロンプト手法が提案されています。モデルは自ら原則をまとめ上げ、未見の例にも適応します。

本手法によって、GPT-3.5とGPT-4における複雑な質問応答や、数学の問題への性能向上が確認されたことが報告されています。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

  • タイトル:In-Context Principle Learning from Mistakes
  • 著者:Tianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, Uri Alon
  • 所属:UC Berkeley, Carnegie Mellon University, Google DeepMind, AI2.
  • URL:https://doi.org/10.48550/arXiv.2402.05403

背景

LLMが急速に進化する中、実用においては下流タスク(具体的で細分化されたタスク)の性能向上に注目が集まっています。そこで低コストな手法であるコンテキスト内学習(In-Context learning)が注目されています。いわゆるプロンプトエンジニアリングとも呼ばれる技術分野であり、OpenAIやGoogleといった基盤モデルの提供元も理論的なプロンプト構築を推奨しています。

コンテキスト内学習の中でも、「フューショットプロンプティング(Few-Shot Prompting)」と呼ばれる手法は汎用的に有用と言われています。LLMに少数の入出力例を提示し、未知の新しい入力に対する出力を生成するよう促すアプローチです。多くのタスクで非常に効率的ですが、これまでは正解の例から学習することにフォーカスされており、間違いから学ぶという重要な戦略は十分に活用されていません。。

一方で、研究の事例もあります。Self-RefineやOptimization by PROmpting(OPRO)などの研究では、LLMが自身の出力を反省し、改善する方法が探求されています。しかし、直接的なフィードバックや大量の訓練データを必要とするといった課題があります。

また、Contrastive Chain-of-Thoughtのような研究は、否定的な例からの学習の重要性を強調していますが、一貫した改善をもたらすことまでは示せていませんでした。

こうした背景から、研究者らは「LEAP(Learning Principles)」という新しい手法を提案しています。モデルが与えられた例から間違いを犯し、それを振り返り、最終的には明確なタスク固有の原理を形成することで、類似の誤りを避けることを可能にします。

下記では具体的な方法論と実際に使用できるプロンプトテンプレート、そして本手法の性能を示す実験結果を紹介します。

方法論

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP