LLM認知機能の限界とCogEval評価プロトコル

2023.10.09

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

現在、通常のLLM（事前学習をしただけの状態）は認知機能がまだ十分ではないため、目標達成能力に伸びしろがあるとの見解が出ています。

今後は、記憶容量の拡張などによって、より優れた能力を持つ可能性があるとのことです。

Microsoftの研究者らによる発表です。
○ Ida Momennejad et al., “Evaluating Cognitive Maps and Planning in Large Language Models with CogEval”

これまでLLMの認知機能における体系的な調査は十分ではなく、しかし能力の不足を示している現象（ループや幻覚など）は確認されていました。
現状の水準や改善すべき方向性の明確化が求められていました。

そこで研究者らは、人間の測定法と似たフレームワークでLLMの認知機能を調べました。

■調査の方針と方法
LLMの「認知マップ」と「計画能力」が評価された
認知マップ：外部環境を内部に表現する機能
計画能力：目標に向かって計画を立てて遂行する能力

■フレームワークの方法論
① CogEvalという新しい評価プロトコルを提案
② 既存の人間の行動実験に基づいてプロンプトを設計
② 環境、空間、社会、価値、経路などのタスクを実験
④ 統計的分析を行う

■実験の結果
① LLMは、小さなグラフの一部のタスクにおいては能力を示す
② 幻覚やループなどが現れる傾向が確認された

■結論と注意点
① 認知マップの理解や計画能力は「箱から出してすぐに」は持っていない
② 認知マップの欠如が理由で計画タスクに失敗する可能性が高い
③ 新しい評価プロトコル（CogEval）は有望である
④ LLMのアーキテクチャやトレーニングには工夫の余地がある
⑤ LLMの認知機能を向上させるには、メモリ（記憶容量）の拡張などが有効

なお、今回検証されたのはGPT-3.5、GPT-4、Bard、LLaMA-13Bなど主要なLLMでした。

📄 参照論文

Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

著者: 著者：Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness 他

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLM認知機能の限界とCogEval評価プロトコル

📄 参照論文

こちらもどうぞ

🔒 LLMは制御工学でどれほど能力があるか　Claude 3、GPT-4、Gemini Ultraでの実験結果

🔒 LLMは本当に推論しているか？原理から導かれる長所短所と最適なフレームワーク

📄 参照論文

こちらもどうぞ

🔒 LLMは制御工学でどれほど能力があるか Claude 3、GPT-4、Gemini Ultraでの実験結果

🔒 LLMは本当に推論しているか？原理から導かれる長所短所と最適なフレームワーク

🔒 LLMは制御工学でどれほど能力があるか　Claude 3、GPT-4、Gemini Ultraでの実験結果