LLMの思考の流れに沿ってプロンプトを与えるか否かで30%以上精度が変化する DeepMindが報告 | AIDB

Loading [MathJax]/extensions/tex2jax.js

ホーム
LLM, プロンプト, 有料記事, 論文
LLMの思考の流れに沿ってプロンプトを与えるか否かで30%以上精度が変化する　DeepMindが報告

次回の更新記事：「人間とAIエージェントの協働」設計ガイド　考え方…（公開予定日：2025年05月13日）

LLMの思考の流れに沿ってプロンプトを与えるか否かで30%以上精度が変化する　DeepMindが報告

大規模言語モデル（LLM）は文章の並び順に影響されやすいといった意外な弱点があります。

例えば推論タスクでは、前提を論理の構造と同じ順番で提示することでモデルの精度が大幅に向上することがわかっています。

今回Google DeepMindの研究者らは、この「前提の順序」による影響を様々なLLMで検証しました。

参照論文情報

タイトル：Premise Order Matters in Reasoning with Large Language Models

著者：Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou

所属：Google DeepMind, Stanford University

背景

LLMは人間のような認知バイアスに沿ったエラーを起こすことがあることが知られています。

例えば、「AはBに含まれる」という情報で学習したLLMは「BはAを含む」と推測できない現象が報告されています。（〇〇さんの父親は××さんである、という事実から××さんの息子は〇〇さんであることが分からないといったケース。参考：GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策）

また、タスクの説明に無関係な文脈が含まれると、LLMの性能が大きく低下する傾向もあります。

そんな背景を踏まえて、Google DeepMindの研究者らは、LLMの推論能力に及ぼす「前提の順序」の影響を調べることにしました。
本来は演繹的な推論では、前提となる文の順序を変えても結論は変わりません。次の例を考えてみましょう。

AならばBである

BならばCである

Aは真である

上記の３つの前提は順番を入れ替えても、いずれの場合も「Cは真」と結論できます。しかし、LLMは与えられる前提の順序に左右される性質があり、証明文と同じ順番で前提文が並んでいる場合に最良の結果を出します。

このような順序へのこだわりは、もともとは人間の思考傾向にもあるものです。私たち人間も、前提を一つずつ確認しながら逐次的に結論を導けるため、順番通りの文章を好む傾向にあります。このことは人間を対象とした実験が過去に行われて示されています。

研究者らはこの「前提の順序」による影響を、GPT-4-turbo、GPT-3.5-turbo、PaLM 2-L、Gemini Proなど最新のLLMを使って体系的に調査しました。

以下で詳細を紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

大規模言語モデル（LLM）のこれまでとこれから④　-ベンチマーク別の優秀なモデルと将来展望編-

ユーザーの指示が曖昧なとき、LLM側が確認を行うエージェントアーキテクチャ『Mistral-Interact』

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録

おすすめポスト

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

prev

next

Copyright © AIDB All rights reserved.