現在、通常のLLM(事前学習をしただけの状態)は認知機能がまだ十分ではないため、目標達成能力に伸びしろがあるとの見解が出ています。
今後は、記憶容量の拡張などによって、より優れた能力を持つ可能性があるとのことです。
Microsoftの研究者らによる発表です。
○ Ida Momennejad et al., “Evaluating Cognitive Maps and Planning in Large Language Models with CogEval”
これまでLLMの認知機能における体系的な調査は十分ではなく、しかし能力の不足を示している現象(ループや幻覚など)は確認されていました。
現状の水準や改善すべき方向性の明確化が求められていました。
そこで研究者らは、人間の測定法と似たフレームワークでLLMの認知機能を調べました。
■調査の方針と方法
LLMの「認知マップ」と「計画能力」が評価された
認知マップ:外部環境を内部に表現する機能
計画能力:目標に向かって計画を立てて遂行する能力
■フレームワークの方法論
① CogEvalという新しい評価プロトコルを提案
② 既存の人間の行動実験に基づいてプロンプトを設計
② 環境、空間、社会、価値、経路などのタスクを実験
④ 統計的分析を行う
■実験の結果
① LLMは、小さなグラフの一部のタスクにおいては能力を示す
② 幻覚やループなどが現れる傾向が確認された
■結論と注意点
① 認知マップの理解や計画能力は「箱から出してすぐに」は持っていない
② 認知マップの欠如が理由で計画タスクに失敗する可能性が高い
③ 新しい評価プロトコル(CogEval)は有望である
④ LLMのアーキテクチャやトレーニングには工夫の余地がある
⑤ LLMの認知機能を向上させるには、メモリ(記憶容量)の拡張などが有効
なお、今回検証されたのはGPT-3.5、GPT-4、Bard、LLaMA-13Bなど主要なLLMでした。
📄 参照論文
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval