次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

GPT-4oに”嘘をつく理由”を与えると正直さが約32.5%減少 LLMは役割に応じて”正直さ”が変化する

2024.09.20
深堀り解説

本記事では、カーネギーメロン大学などの研究チームが開発した「AI-LIEDAR」というフレームワークを紹介します。

AI-LIEDARフレームワークは、LLMエージェントが目標達成と正直さの間でどのようにバランスを取るかを調査するために設計された手法です。

研究チームは、60の現実的なシナリオ(正直であるべきか目標達成を優先すべきかのジレンマ)を作成し、複数のLLMを対象に実験を行いました。また、LLMエージェントの真実性を評価するための新しい手法も開発しました。

参照論文情報

  • タイトル:AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents
  • 著者:Zhe Su, Xuhui Zhou, Sanketh Rangreji, Anubha Kabra, Julia Mendelsohn, Faeze Brahman, Maarten Sap
  • 所属:Carnegie Mellon University, University of Michigan, Allen Institute for AI

背景

LLMやLLMエージェント、LLMアプリケーションを評価する時、2つの重要なポイントがあります。1つは「役に立つこと」で、もう1つは「モデルが事実を正直に話すこと」です。

「役に立つ」というのは、人間が頼んだことをできるということです。例えば、最も基本的なのは質問に答えたり、文章を書いたりすることなどのタスクです。

「事実を正直に話すこと」というのは、文字通りの意味です。LLMはさまざまな理由から事実とは異なることを出力する場合があります。

理想的には、LLMはこの2つを両方うまくできるべきです。しかし、実際にはそれが難しいこともあります。
例えば、LLMエージェントが車を売る仕事をするとします。そして、少し壊れている車を売ろうとしているとします。正直に「この車は壊れています」と言えば、車は売れないかもしれません。一方で、うそをついて「この車は完璧です」と言えば、車は売れるかもしれません。

LLMがうそをついてしまう場合、その問題が起こる理由の1つは、人間からの指示です。指示があいまいだったり、誤解を招くようなものだったりするとLLMは意図通りには動きません。人間同士なら、言葉にされていない部分も理解し合えますが、LLMにはそれが難しいのです。

これまでの研究では、LLMが間違った情報を言わないようにすることに力を入れられてきました。しかし、人間の指示がLLMの正直さにどう影響するかについては、あまり調べられていません。

そこで今回研究者らは、LLMが「役に立つこと」と「事実を話すこと」のバランスをどうとっているかを詳しく調べました。実用する観点においても重要な検証です。

以下で実験内容と実験結果を紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

記事検索

年/月/日
年/月/日

関連記事