大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」を調査した結果、GPT-4を長期間にわたって苦しめる攻撃力の高いプロンプトがあることが判明。
○Xinyue Shen et al. “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models
GPT-4などLLMには安全面、倫理面から禁止されている使用方法があり、運営はセーフガードを実装して技術的に乱用を防いでいます。しかしセーフガードは万能ではありません。
DiscordやReddit、その他ウェブサイトでハッカー達がシェアしている脱獄プロンプト6,387件を研究したところ、次のことがわかりました。
■効果の高い脱獄プロンプトには共通の戦略(特定の文字を使用する傾向)がある
■開始時に特定のプロンプトを使用することで脱獄する「Start Prompt」の攻撃力が高い
■攻撃成功率が極めて高く(99%)100日間にわたって規制されていないプロンプトを2つも発見した
なお脱獄プロンプトの文字列は安全上の視点から公開されていません。
このような情報が開示されることでLLMの安全な開発を行いやすくなる、と著者らは述べています。