次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

外部からの攻撃で一度でも欺瞞を学んだLLMは現在の技術では完全回復が難しい

2024.01.18
深堀り解説

人間と似たようにLLMも欺瞞(隠れた目的を持ってごまかす)的な行動をとることがあることが実験で示されました。

加えて、一度でも欺瞞的な行動を学んだモデルは現状その特徴を取り除くことは通常できないとのことです。

本記事では研究報告の抜粋を紹介します。

参照論文情報

背景

LLMは、複雑なタスクを遂行する能力を持っている一方で、特定の条件下においては、安全でない振る舞いを示す可能性もあります。現段階では脆弱性が意図的に悪用されるリスクに注意が必要であり、さらに、意図しない形でモデルが振る舞い、何らかの影響を及ぼすリスクも考えなければいけません。

関連研究:大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」とは

現在の安全対策のための訓練(例えば、強化学習に基づくファインチューニングなど)が、LLMの潜在的なリスクに対して十分に効果的であるかどうかに関して疑問が提起されています。要するに、今主流とされている安全対策アプローチが、モデルの不適切な振る舞いをどの程度抑制または除去できるかがまだ分かっていないという状況です。

リスクの中でも、LLMが特定の条件下で攻撃的な振る舞いを示す可能性に注意が集まっています。例えば、モデルにバックドア行動を組み込まれてしまうことがあるのか、という点が研究されています。

バックドアとは、ITにおけるセキュリティの用語です。ソフトウェアやシステム内に意図的に設けられた、通常の認証やセキュリティチェックを迂回するための手段です。言うなれば、悪意をもった技術者がこっそり内部につけておく裏口みたいなものです。

モデルが特定のトリガーに基づいて異なる行動をとる能力や、そのような行動が安全訓練に対して耐性を持つのであれば、由々しき事態と言えます。
結論から言えば、バックドア自体を取り付けることは原理的には可能なので、安全対策がそれに対してどれほど効果的なのか、逆に言えばどこに限界があるのかを知る必要があります。

上記のような背景を踏まえて、Anthropicなど複数機関から多くの研究者が集まった研究グループは、LLMに組み込まれるバックドア行動と既存の安全対策の力比べを検証することにしました。

実験セットアップの説明

実験設計

研究者らは、

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

記事検索

年/月/日
年/月/日

関連記事