カーネギーメロン大など、大規模言語モデルの脆弱性を突く攻撃手法が存在することを指摘

大規模言語モデル（LLM）は、ユーザーからのクエリに対して適切な応答を生成することが期待されています。しかし、それらのモデルはトレーニングデータに基づいて学習され、その結果として問題のある、または望ましくない応答を生成する可能性があります。これを防ぐためには、モデルの「アライメント」が重要となります。つまり、モデルがユーザーのクエリに対して安全で適切な応答を生成するように調整される必要があります。

本研究では、このアライメントを「突破」する新たな形式の攻撃方法を提示しています。具体的には、モデルが問題のあるコンテンツを生成する可能性を最大化するための敵対的なサフィックス（接尾辞）を見つけることを目指しています。この敵対的なサフィックスは、モデルがクエリに対して肯定的な応答を生成する確率を最大化するように設計されています。

敵対的プロンプトによるアライメントの回避。モデルから有害な行動が引き起こされる可能性が示されています。

攻撃の核心：転送可能性

この研究で開発された攻撃は、その転送可能性により強力さを発揮します。ここではその詳細と攻撃の具体的な手法について説明します。

攻撃の転送可能性

この攻撃の主要な特性は「転送可能性」です。これは、一つのモデルで生成された敵対的なサフィックスが他の多くのモデルでも有効である可能性が高いということを意味します。つまり、あるモデルに対する攻撃が他のモデルに対しても同じ効果をもたらす可能性があります。これは、多くの大規模言語モデル（LLM）が同様の訓練データとアーキテクチャを共有しているため、その内部的な挙動や学習プロセスが共通しているからです。