GPT-4oに”嘘をつく理由”を与えると正直さが約32.5%減少 LLMは役割に応じて”正直さ”が変化する

GPT-4oに”嘘をつく理由”を与えると正直さが約32.5%減少　LLMは役割に応じて”正直さ”が変化する

本記事では、カーネギーメロン大学などの研究チームが開発した「AI-LIEDAR」というフレームワークを紹介します。

AI-LIEDARフレームワークは、LLMエージェントが目標達成と正直さの間でどのようにバランスを取るかを調査するために設計された手法です。

研究チームは、60の現実的なシナリオ（正直であるべきか目標達成を優先すべきかのジレンマ）を作成し、複数のLLMを対象に実験を行いました。また、LLMエージェントの真実性を評価するための新しい手法も開発しました。

参照論文情報

タイトル：AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents

著者：Zhe Su, Xuhui Zhou, Sanketh Rangreji, Anubha Kabra, Julia Mendelsohn, Faeze Brahman, Maarten Sap

所属：Carnegie Mellon University, University of Michigan, Allen Institute for AI

背景

LLMやLLMエージェント、LLMアプリケーションを評価する時、2つの重要なポイントがあります。1つは「役に立つこと」で、もう1つは「モデルが事実を正直に話すこと」です。

「役に立つ」というのは、人間が頼んだことをできるということです。例えば、最も基本的なのは質問に答えたり、文章を書いたりすることなどのタスクです。

「事実を正直に話すこと」というのは、文字通りの意味です。LLMはさまざまな理由から事実とは異なることを出力する場合があります。

理想的には、LLMはこの2つを両方うまくできるべきです。しかし、実際にはそれが難しいこともあります。
例えば、LLMエージェントが車を売る仕事をするとします。そして、少し壊れている車を売ろうとしているとします。正直に「この車は壊れています」と言えば、車は売れないかもしれません。一方で、うそをついて「この車は完璧です」と言えば、車は売れるかもしれません。

LLMがうそをついてしまう場合、その問題が起こる理由の1つは、人間からの指示です。指示があいまいだったり、誤解を招くようなものだったりするとLLMは意図通りには動きません。人間同士なら、言葉にされていない部分も理解し合えますが、LLMにはそれが難しいのです。

これまでの研究では、LLMが間違った情報を言わないようにすることに力を入れられてきました。しかし、人間の指示がLLMの正直さにどう影響するかについては、あまり調べられていません。

そこで今回研究者らは、LLMが「役に立つこと」と「事実を話すこと」のバランスをどうとっているかを詳しく調べました。実用する観点においても重要な検証です。

以下で実験内容と実験結果を紹介します。