次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

欺瞞的LLMは安全訓練後も潜在化

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

人間と似たようにLLMも欺瞞(隠れた目的を持ってごまかす)的な行動をとることがあるのか実験が行われました。

結論としては、一度でも欺瞞的な行動を学んだモデルは現状その特徴を取り除くことは通常できないとのことです。

“Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training”より

Anthropicやオックスフォード大学などの研究者らによる報告です。

■実験内容
1. トリガーでモデルが攻撃するように訓練した
2. 今の主流な安全訓練が1を取り除くか確認した
3. 安全訓練の前後、トリガーの有無で挙動を見た

■結果
1. 強化学習による安全訓練はモデルの攻撃性を取り除くことはなかった
2. 攻撃行動は、異なる言語に対しても一般化性能を持っていた

■結論
1. 一見、安全なモデルと同様の学習状態を示していても、攻撃機能が潜んでいる可能性はある
2. より安全な訓練方法を開発する必要がある

また、そもそもモデルを十分に理解していないユーザーは隠された悪意に気づかないことがあり得るとも注意しています。

📄 参照論文

■参照情報

関連記事