LLMの自信度調整で人間の過信を抑制

2024.01.29

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

人間はLLMによる説明の正確さを過大評価する傾向がある（つまり信頼しすぎてしまう）ことが実験で示唆されています。

そこで研究者らは、LLMに「自信の度合いに応じて説明のニュアンスを変更させる」ことの有効性を提案しています。

カリフォルニア大学のコンピュータサイエンスと認知科学で構成された研究グループによる報告です。

“The Calibration Gap between Model and Human Confidence in Large Language Models”より

■研究背景
– モデルは必ずも100%の自信で答えるわけではない
– しかし人間はモデルの出力を信頼する傾向にある
– このギャップを調整する必要がある

■提案手法
– LLMに、出力に対する自信の度合いを考えさせる
（ex. 自信はない/やや自信がある/完全に自信がある）
– 内部的な自信度に応じてニュアンスを変更させる

■実験と結果
– GPT-3.5とPaLMに対して提案手法を適用
– MMLU（複雑な内容の4択問題）でテスト
– 人間の参加者がモデルの正確性を評価する
– モデルの自信と人間からの信頼におけるギャップが軽減する傾向が示唆された

本提案手法の有効性は、今後も検証を重ねることが推奨されています。
なお、本手法を適用する際にはプロンプトを追加する必要があるため、最低限の指示で実現する方法が模索されています。

参照情報：

📎 論文を読む（doi.org）

こちらもどうぞ