LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場複数のLLMの評価結果も発表

LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場　複数のLLMの評価結果も発表

人間同士の円滑なコミュニケーションに不可欠なのが「相手の考えや心理状態を理解する」能力で、専門用語では「心の理論」と言います。そしてAIシステムが人と上手く関わるためには、この「心の理論」の能力が必要です。

そこで研究者らは、高度な評価を可能にする指標「OpenToM」を開発しました。

参照論文情報

タイトル：OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models
機関：King’s College London, Huawei London Research Centre, The Alan Turing Institute
著者：Hainiu Xu, Runcong Zhao, Lixing Zhu, Jinhua Du, Yulan He

背景

人と上手にコミュニケーションするには、相手が自分とは違う物の見方をすることを理解する力（心の理論）が欠かせません。機械にも同様の力があれば、人と上手く関われるようになるかもしれません。

これまでには、人間の心理テストを言語モデルに解かせる研究などが行われてきました。しかし、単純な心理テストでは登場人物に性格や好みが設定されていなかったり、行動の理由がなかったりするため、AIの真の実力を測りきれませんでした。その結果、GPT-4などの言語モデルには心の理論を理解する力があると主張する研究がある一方、それを否定する研究もありました。
また、これまでの調べ方はデータ量が限られており、文章が不自然であったり、質問の種類が少ない、といった課題もありました。

そこで今回、アランチューリング研究所（イギリスの大規模なAI研究機関）などの研究者らは、より高度な「心の理論」能力の評価を可能にする「OpenToM」という指標を開発しました。

「OpenToM」は自然な文章でできており、登場人物たちには性格が設定され、また行動には理由があります。そして読み解く者（LLM）に対しては、物理的な思考だけでなく、登場人物の気持ちにも焦点をあてた質問が投げかけられます。