LLMの推論を強化するStep-Backプロンプティング

2023.10.12

プロンプト（プロンプトエンジニアリング、few-shot、in-context learning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMに聞きたいことの一歩後ろから質問をはじめる『ステップバック・プロンプティング』が、様々なベンチマークでCoTやTake a Deep Breatheを凌駕する性能を発揮すると報告がありました。

極めてシンプルで具体的な新テクニックです。

DeepMindの研究者らによる発表です。
○ Huaixiu Steven Zheng et al., “Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models”

LLMは、複雑な多段階推論が期待されるシーンが増えてきました。
しかし現状のLLMは、中間の推論ステップでの正確性が低いと考えられています。

そこで研究者らは、原則からハイレベルな思考を導き出す新しいプロンプト技術”STEP-BACK PROMPTING（『ステップバック・プロンプティング』）”を考案しました。

■ステップバック・プロンプティングの方法論
フレームワークは2つのステップで構成されている
① 抽象化：高次の概念や原則（要するに前提）に関する質問を最初に提示する
② 推論：確認した前提に基づいて、本来の質問における解決策を推論する

■実験・調査方法
①対象タスク：STEM（科学、技術、工学、数学）、Knowledge QA（知識ベースの質問応答）、Multi-Hop Reasoning（多段階推論）
② 使用モデル：PaLM-2LとGPT-4
③ 評価指標: 精度、F1スコアなど

■実験の結果
① 各ベンチマークで7%〜27%の性能向上を達成した
② 従来のプロンプト技術（Chain of Thought、Take a Deep Breathe）と比較して、最も高い性能を発揮した

※従来のプロンプト技術
Chain of Thought：「ステップバイステップで取り組んでください」などの指示によって推論ステップを多段階にする
Take a Deep Breathe：「深呼吸してから取り組んでください」などの指示により推論の精度を向上させる

■主な結論と注意点
① 複雑なタスクにおいてLLMの推論能力を大幅に向上させる有望な手法である
② 特に多段階の推論が必要なタスクで有用である
③ ただし、LLM自体の推論能力の限界により、一部のエラーは解消できない可能性がある

■プロンプト例
ユーザー：〇〇において、××に影響を与える基本的な要素は何ですか？
（LLM：*****）
ユーザー：それを考慮に入れて、××を高める/改善する/強めるetc最も効果的な方法は何ですか？

□追加の考察
上記のテクニック『ステップバック・プロンプティング』がCoTやTake a Deep Breathe（深呼吸）よりも有効であることは重要な知見ですが、組み合わせによる効果は未検証です。
例えば、ステップバック・プロンプティングの各フェーズにおいて、「深呼吸して、ステップバイステップで取り組んでください」という文言を付け足すと、推論がさらに洗練されるといった可能性も考えられます。

📄 参照論文

論文情報と関連研究：

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMの推論を強化するStep-Backプロンプティング

📄 参照論文

こちらもどうぞ

🔒 人はディベートで人よりもGPT-4が相手のとき81.7%高い確率で意見を変える（つまり討論に負ける）傾向にあったとの実験報告

🔒 RAGにおけるチャンキング戦略をおさらい　どの戦略をどんなタスクに使うべきか検証

📄 参照論文

こちらもどうぞ

🔒 人はディベートで人よりもGPT-4が相手のとき81.7%高い確率で意見を変える（つまり討論に負ける）傾向にあったとの実験報告

🔒 RAGにおけるチャンキング戦略をおさらい どの戦略をどんなタスクに使うべきか検証

🔒 RAGにおけるチャンキング戦略をおさらい　どの戦略をどんなタスクに使うべきか検証