LLMに推論を再ランク付けさせるRankPrompt

2024.03.21

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLM自身によって回答を再ランクづけさせることで、推論タスク性能を向上させるプロンプト手法『RankPrompt』をアリババなどの研究者らが考案しています。

実験では単純なCoTより一貫して性能が高くなることが示されています。

“RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners”より

最先端のLLMでも論理的なエラーは生じやすく、解決策がいくつか講じられてきました。しかし既存の方法は柔軟性に欠けていると言います。

今回研究者らは、推論の道筋を識別することで性能を高めるアプローチ『RankPrompt』を考案しています。

■フレームワーク
– 多様な推論パスを生成させる
– ステップ単位で比較させ、推論パスの再ランク付けを行わせる
– 最適な推論パスを選択させる

■実行プロンプトテンプレート例
（あらかじめいくつかの回答を生成させた上で）
“各回答に含まれる推論のステップを体系的に比較してください。
比較プロセスには、各ステップの正確性と論理的な一貫性を徹底的に評価することが含まれます。
包括的な評価が完了したら、推論の健全性に基づいて回答候補をランク付けしてください。
最後に、最良の回答を選び、最適解として別の行に提示してください。”

■実験と結果
– 算術、常識、記号推論の11のベンチマークでGPT-3.5/4を用いて評価
– すべてのタスクでCoTプロンプティングを上回った
– 比較するための推論パス数は2つからOK
– 人間の判断と74%の一致率を示した

📄 参照論文

論文情報

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMに推論を再ランク付けさせるRankPrompt

📄 参照論文

こちらもどうぞ

🔒 ハルシネーションが創薬研究を進展させる可能性 LLMの新たな活用法

🔒 100ドル前後のシングルボードコンピュータでLLMは実用的に動くのか　3機種25モデルの検証結果

📄 参照論文

こちらもどうぞ

🔒 ハルシネーションが創薬研究を進展させる可能性 LLMの新たな活用法

🔒 100ドル前後のシングルボードコンピュータでLLMは実用的に動くのか 3機種25モデルの検証結果

🔒 100ドル前後のシングルボードコンピュータでLLMは実用的に動くのか　3機種25モデルの検証結果