CoT(思考の連鎖)は数学や論理で劇的に性能を向上させる一方、常識や知識のタスクでほとんど効果がない

   

本記事では、LLMにおける思考の連鎖(Chain-of-Thought, CoT)プロンプティングの効果を包括的に評価した研究を紹介します。

研究者たちは、100以上の論文を対象とした分析と、14のモデルを用いた20のデータセットでの独自の評価を行いました。CoTがどのようなタスクで効果的なのか、そしてなぜ効果があるのかを明らかにすることを目的としています。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。



参照論文情報

  • タイトル:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
  • 著者:Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett
  • 所属:The University of Texas at Austin, Johns Hopkins University, Princeton University

背景

LLMの推論能力を引き出す方法として、CoT手法が広く使われるようになりました。CoTを使うと、人間が理解しやすい説明を作り出せると同時に、複雑な問題を解くときに途中の計算をしやすくなります。

しかし、CoTがどんな種類の課題で本当に役立つのかは、詳しくはよくわかっていませんでした。そこで今回研究者たちは、100以上の論文を詳しく調べ、さらに14種類のモデルと20の異なるデータセットで新たに評価を行いました。

これらの調査でわかったのは、CoTが特に効果を発揮するのは、数学や論理に関する課題だということです。それ以外の種類の課題では、CoTの効果はあまり大きくありませんでした。

この結果を受けて研究者たちはさらに詳しく調べ、最終的に二つのことが明らかになりました。

以下では、まずCoTとはそもそもなにか?という段階から詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP