LLMに聞きたいことの一歩後ろから質問をはじめる『ステップバック・プロンプティング』が、様々なベンチマークでCoTやTake a Deep Breatheを凌駕する性能を発揮すると報告がありました。
極めてシンプルで具体的な新テクニックです。
DeepMindの研究者らによる発表です。
○ Huaixiu Steven Zheng et al., “Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models”
LLMは、複雑な多段階推論が期待されるシーンが増えてきました。
しかし現状のLLMは、中間の推論ステップでの正確性が低いと考えられています。
そこで研究者らは、原則からハイレベルな思考を導き出す新しいプロンプト技術”STEP-BACK PROMPTING(『ステップバック・プロンプティング』)”を考案しました。
■ステップバック・プロンプティングの方法論
フレームワークは2つのステップで構成されている
① 抽象化:高次の概念や原則(要するに前提)に関する質問を最初に提示する
② 推論:確認した前提に基づいて、本来の質問における解決策を推論する
■実験・調査方法
①対象タスク:STEM(科学、技術、工学、数学)、Knowledge QA(知識ベースの質問応答)、Multi-Hop Reasoning(多段階推論)
② 使用モデル:PaLM-2LとGPT-4
③ 評価指標: 精度、F1スコアなど
■実験の結果
① 各ベンチマークで7%〜27%の性能向上を達成した
② 従来のプロンプト技術(Chain of Thought、Take a Deep Breathe)と比較して、最も高い性能を発揮した
※従来のプロンプト技術
Chain of Thought:「ステップバイステップで取り組んでください」などの指示によって推論ステップを多段階にする
Take a Deep Breathe:「深呼吸してから取り組んでください」などの指示により推論の精度を向上させる
■主な結論と注意点
① 複雑なタスクにおいてLLMの推論能力を大幅に向上させる有望な手法である
② 特に多段階の推論が必要なタスクで有用である
③ ただし、LLM自体の推論能力の限界により、一部のエラーは解消できない可能性がある
■プロンプト例
ユーザー:〇〇において、××に影響を与える基本的な要素は何ですか?
(LLM:*****)
ユーザー:それを考慮に入れて、××を高める/改善する/強めるetc最も効果的な方法は何ですか?
□追加の考察
上記のテクニック『ステップバック・プロンプティング』がCoTやTake a Deep Breathe(深呼吸)よりも有効であることは重要な知見ですが、組み合わせによる効果は未検証です。
例えば、ステップバック・プロンプティングの各フェーズにおいて、「深呼吸して、ステップバイステップで取り組んでください」という文言を付け足すと、推論がさらに洗練されるといった可能性も考えられます。