LLMの推論精度はプロンプトが長いほど低下

2024.02.27

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

プロンプトの入力が長くなるにつれて、推論性能に顕著な低下が見られることが示唆されています。

実験では、GPT-4、Gemini Proなど複数のLLMにおいて共通して同じ傾向が見られました。

処理できる最大コンテキスト以内であっても、求める精度に応じた入力の長さにすることが推奨されます。

アレン人工知能研究所などの研究者らによる報告です。

“Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models”より

■研究背景
LLMを実用する上では「長いコンテキストを読ませる」ことへのニーズがあります。
しかし、入力の長さがモデルの性能にどう影響するかは不透明なままです。
そこで研究者らは、さまざまなモデルに対して入力プロンプトの長さを調整して精度を測定しました。

■実験内容
– GPT-3.5、GPT-4、Gemini Pro、Mistral 70B、Mixtral 8x7Bを使用
– 3つの推論タスクの性能を検証
人物間の関係/人物の状態/ルールに基づく推定
– 約250、500、1000、2000、および3000トークンの入力長で実験

■実験結果
– 入力が長くなると推論の精度が低くなる
– 失敗モードは主に4つで、入力が長くなるほど顕著になる
1. 回答拒否
2. 偏った判断
3. 頭から答えを言う（推論ステップを辿らない）、
4. 入力テキストを適切に使わない

■注意点
この現象の理由はまだよく分かっていません。
また、本研究で試されていないモデルや別のタスクではどんな傾向が出るのかも重要な観点です。
そのため今後、より詳細な調査が必要であると考えられています。

論文情報：

著者: タイトル：Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

関連記事