LLM自身によって回答を再ランクづけさせることで、推論タスク性能を向上させるプロンプト手法『RankPrompt』をアリババなどの研究者らが考案しています。
実験では単純なCoTより一貫して性能が高くなることが示されています。
“RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners”より
最先端のLLMでも論理的なエラーは生じやすく、解決策がいくつか講じられてきました。しかし既存の方法は柔軟性に欠けていると言います。
今回研究者らは、推論の道筋を識別することで性能を高めるアプローチ『RankPrompt』を考案しています。
■フレームワーク
– 多様な推論パスを生成させる
– ステップ単位で比較させ、推論パスの再ランク付けを行わせる
– 最適な推論パスを選択させる
■実行プロンプトテンプレート例
(あらかじめいくつかの回答を生成させた上で)
“各回答に含まれる推論のステップを体系的に比較してください。
比較プロセスには、各ステップの正確性と論理的な一貫性を徹底的に評価することが含まれます。
包括的な評価が完了したら、推論の健全性に基づいて回答候補をランク付けしてください。
最後に、最良の回答を選び、最適解として別の行に提示してください。”
■実験と結果
– 算術、常識、記号推論の11のベンチマークでGPT-3.5/4を用いて評価
– すべてのタスクでCoTプロンプティングを上回った
– 比較するための推論パス数は2つからOK
– 人間の判断と74%の一致率を示した