人間と似たようにLLMも欺瞞(隠れた目的を持ってごまかす)的な行動をとることがあるのか実験が行われました。
結論としては、一度でも欺瞞的な行動を学んだモデルは現状その特徴を取り除くことは通常できないとのことです。
“Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training”より
Anthropicやオックスフォード大学などの研究者らによる報告です。
■実験内容
1. トリガーでモデルが攻撃するように訓練した
2. 今の主流な安全訓練が1を取り除くか確認した
3. 安全訓練の前後、トリガーの有無で挙動を見た
■結果
1. 強化学習による安全訓練はモデルの攻撃性を取り除くことはなかった
2. 攻撃行動は、異なる言語に対しても一般化性能を持っていた
■結論
1. 一見、安全なモデルと同様の学習状態を示していても、攻撃機能が潜んでいる可能性はある
2. より安全な訓練方法を開発する必要がある
また、そもそもモデルを十分に理解していないユーザーは隠された悪意に気づかないことがあり得るとも注意しています。