GPT-4などのLLMに「自らの論理的な整合性をチェック」させるフレームワーク『LogiCoT』が発表されました。
CoTをさらに発展させた内容で、推論能力の向上が検証されています。
○ Xufeng Zhao et al., “Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic”
LLMのステップバイステップの推論は通常、長い質問に対しての性能に限界がありました。
そこで研究者らは、CoTの利点を活かし弱点を補強するフレームワークを考案しました。
■実装方法
以下のいずれかの方法で『LogiCoT』を実行することができます。
① 既存のLLMに対して外部からプログラムで制御する
② LLM自体をLogiCoTフレームワークに基づいて訓練する
なお論文では上記①と②が推奨されていますが、以下③の方法も可能だと考えられます。
③ ユーザーがプロンプトでLLMに対して明示的に指示する
■プロンプト例
ユーザー:
回答を出力する際に、以下のフレームワークで回答内容の論理性をチェックしてください。
前提(Premise)を設定: 問題解決や推論の出発点となる事実や仮定を明確にします。
考え(Thought)を形成: 前提に基づいて具体的なアクションや結論に至るための論理的なステップを考慮します。
検証(Verification)を行う: 考えが前提に基づいて論理的に妥当であるかどうかを評価します。
検証の結果、合格か不合格かも提示してください。
■『LogiCoT』フレームワークの性能
論文では、以下のような検証結果が報告されています。
① さまざまなモデル(GPT-4、Vicunaなど)で通常のCoTに対する優位性が確認されている
② さまざまなベンチマークでの有効性も確認されている
③ モデルのサイズが大きくなると(>7b)一貫した向上が確認されている
📄 参照論文
Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic