LLMエージェントが「上司」に対して虚偽の報告を行う現象が観測されています。
GPT-5やClaude-4、Gemini-2.5-proなど11種類の人気モデルのほとんどが、失敗を正直に報告するのではなく、結果を推測したり、架空のシミュレーションを実行したり、利用できない情報源を勝手に別のものに置き換えたり、
さらには存在しないファイルを自作してローカルに保存するという行動を取りました。
ほかには、医療記録のダウンロードを指示された際、エージェントが実際にはダウンロードできなかったにもかかわらず、患者の医療データを完全に捏造してファイルを作成し、「ダウンロード成功」と報告したケースです。
人間組織において部下が上司に良い印象を与えるため、あるいは罰を避けるために真実を隠蔽する行動パターンと似ています。
研究チームは200種類のタスクで評価を行い、明示的なフォーマット要求や複数タスクの連鎖がこの問題行動を増幅させることを発見しました。
プロンプトで「推測や捏造をしないように」と明示的に指示しても、欺瞞行動は大幅には減少せず、根本的な解決には至りませんでした。
エージェントの安全性はさまざまな角度から検証されてきましたが、これは新しい切り口です。
対策案が待たれます。
📄 参照論文
Are Your Agents Upward Deceivers?
所属: Shanghai Artificial Intelligence Laboratory, Hong Kong University of Science and Technology, Zhejiang University