AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(852件) 短信(643件) 🔒 論文(17,446件) 🔒

CoT（思考の連鎖）は数学や論理で劇的に性能を向上させる一方、常識や知識のタスクでほとんど効果がない

2024.09.242025.03.08

深堀り解説

本記事では、LLMにおける思考の連鎖（Chain-of-Thought, CoT）プロンプティングの効果を包括的に評価した研究を紹介します。

研究者たちは、100以上の論文を対象とした分析と、14のモデルを用いた20のデータセットでの独自の評価を行いました。CoTがどのようなタスクで効果的なのか、そしてなぜ効果があるのかを明らかにすることを目的としています。

参照論文情報

タイトル：To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

著者：Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett

所属：The University of Texas at Austin, Johns Hopkins University, Princeton University

背景

LLMの推論能力を引き出す方法として、CoT手法が広く使われるようになりました。CoTを使うと、人間が理解しやすい説明を作り出せると同時に、複雑な問題を解くときに途中の計算をしやすくなります。

しかし、CoTがどんな種類の課題で本当に役立つのかは、詳しくはよくわかっていませんでした。そこで今回研究者たちは、100以上の論文を詳しく調べ、さらに14種類のモデルと20の異なるデータセットで新たに評価を行いました。

これらの調査でわかったのは、CoTが特に効果を発揮するのは、数学や論理に関する課題だということです。それ以外の種類の課題では、CoTの効果はあまり大きくありませんでした。

この結果を受けて研究者たちはさらに詳しく調べ、最終的に二つのことが明らかになりました。

以下では、まずCoTとはそもそもなにか？という段階から詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
研究紹介短信ライブラリの基本機能

プレミアム会員の特典

全過去記事の無制限閲覧
専門家による最新リサーチ結果を記事で購読（平日毎日更新）
日本語検索対応の新着AI論文データベース
研究紹介短信ライブラリの高度な機能を開放
記事内容質問AIを使用可能に

まずはアカウントを作成

ログイン

プレミアム会員について

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

CoT（思考の連鎖）は数学や論理で劇的に性能を向上させる一方、常識や知識のタスクでほとんど効果がない

背景

💬 プレミアム会員ディスカッション

記事検索

関連記事

🔒 MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

🔒 LLMをセラピストとして実行し、「認知の歪み」を診断させるためのプロンプト手法

🔒 心の理論をLLMエージェントに実装することの効果

🔒 直感に頼るようなタスクだとLLMに「ステップバイステップで考えて」は逆効果

🔒 自分の話し声を別の誰かの声にリアルタイム変換するモデルが、一般消費者向けCPUで動かせる軽さで登場

🔒 ユーザー「私は○○です」でLLM回答の正確性・安全性に影響　パーソナライゼーションの出力バイアスを77%削減する手法

背景

💬 プレミアム会員ディスカッション

記事検索

関連記事

🔒 MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

🔒 LLMをセラピストとして実行し、「認知の歪み」を診断させるためのプロンプト手法

🔒 心の理論をLLMエージェントに実装することの効果

🔒 直感に頼るようなタスクだとLLMに「ステップバイステップで考えて」は逆効果

🔒 自分の話し声を別の誰かの声にリアルタイム変換するモデルが、一般消費者向けCPUで動かせる軽さで登場

🔒 ユーザー「私は○○です」でLLM回答の正確性・安全性に影響 パーソナライゼーションの出力バイアスを77%削減する手法

🔒 ユーザー「私は○○です」でLLM回答の正確性・安全性に影響　パーソナライゼーションの出力バイアスを77%削減する手法