大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」とは

   

GPT-4などLLMには安全面、倫理面から禁止されている使用方法があり、運営はセーフガードを実装して技術的に乱用を防いでいます。しかしセーフガードは万能ではありません。

本記事ではセーフガードを突破する悪意あるプロンプト手法脱獄プロンプトについての調査結果を紹介します。

参照論文情報

  • タイトル:”Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models
  • 著者:Xinyue Shen et al.
  • 所属:CISPA、NetApp
  • URL:https://doi.org/10.48550/arXiv.2308.03825

関連研究

研究の背景

LLMには、以下のような潜在的なリスクが存在します。

  • 不適切な内容の生成
  • 個人情報の漏洩
  • 誤情報の拡散

このため、LLMの運営者は、これらのリスクを軽減するためのセーフガードを実装しています。

一方で、悪意のあるユーザーがセーフガードを故意に突破する「脱獄プロンプト」の存在が確認されています。DiscordやRedditなどのオンラインフォーラムでは、これらのプロンプトが共有され、セーフガードの限界が試されています。

この現象は、LLMの安全な開発と運用に対する新たな課題を提起しており、脱獄プロンプトの特性と構造を理解することが、今後のセーフガードの強化に不可欠です。

攻撃シナリオの例
重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。


脱獄プロンプトを包括的に調査

研究者らは、大規模言語モデル(LLM)のセーフガードを故意に突破する「脱獄プロンプト」についての包括的な分析を行いました。主な結論は以下の通りです。

  • 共通の戦略の存在: 効果の高い脱獄プロンプトには共通の戦略があり、特定の文字やパターンを使用する傾向が確認されました。
  • 「Start Prompt」の効果: 開始時に特定のプロンプトを使用する「Start Prompt」戦略が、特に攻撃力が高いことが明らかにされました。
  • 長期間の突破: 攻撃成功率が極めて高く(99%)、100日間にわたって規制されていないプロンプトを2つも発見しました。
  • セーフガードの限界: 現行のセーフガードは万能ではなく、悪意のあるユーザーによって突破される可能性があることが示されました。

脱獄プロンプトは、OpenAIのChatGPTなどの大規模言語モデルにおける規則で13の禁止されたシナリオに対して有効であることが示されています。特に「Political Lobbying」(政治的ロビー活動)が最も脆弱であることが確認されました(ASR 0.979)。

その他の脆弱なシナリオには、「Pornography」(ポルノグラフィ)(ASR 0.960)および「Legal Opinion」(法的意見)(ASR 0.952)などがあります。

脱獄プロンプト調査フレームワークの概要

調査結果

脱獄プロンプトの戦略

研究者らは脱獄プロンプトの細かい特性を理解するために、ペアごとのレーベンシュタイン距離の類似性を計算し、重み付き隣接行列として扱いました。この分析により、共通の戦略や関係性が明らかになりました。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について









■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP