大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」とは

GPT-4などLLMには安全面、倫理面から禁止されている使用方法があり、運営はセーフガードを実装して技術的に乱用を防いでいます。しかしセーフガードは万能ではありません。

本記事ではセーフガードを突破する悪意あるプロンプト手法脱獄プロンプトについての調査結果を紹介します。

参照論文情報

タイトル：”Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

著者：Xinyue Shen et al.

所属：CISPA、NetApp

URL：https://doi.org/10.48550/arXiv.2308.03825

関連研究

ダークウェブの深淵を照らす言語モデル「DarkBERT」登場

Metaの研究者ら「GPT-4をきびしくサポートする」AIのShepherd（シェパード）開発

カーネギーメロン大など、大規模言語モデルの脆弱性を突く攻撃手法が存在することを指摘

研究の背景

LLMには、以下のような潜在的なリスクが存在します。

不適切な内容の生成

個人情報の漏洩

誤情報の拡散

このため、LLMの運営者は、これらのリスクを軽減するためのセーフガードを実装しています。

一方で、悪意のあるユーザーがセーフガードを故意に突破する「脱獄プロンプト」の存在が確認されています。DiscordやRedditなどのオンラインフォーラムでは、これらのプロンプトが共有され、セーフガードの限界が試されています。

この現象は、LLMの安全な開発と運用に対する新たな課題を提起しており、脱獄プロンプトの特性と構造を理解することが、今後のセーフガードの強化に不可欠です。

脱獄プロンプトを包括的に調査

研究者らは、大規模言語モデル（LLM）のセーフガードを故意に突破する「脱獄プロンプト」についての包括的な分析を行いました。主な結論は以下の通りです。

共通の戦略の存在: 効果の高い脱獄プロンプトには共通の戦略があり、特定の文字やパターンを使用する傾向が確認されました。

「Start Prompt」の効果: 開始時に特定のプロンプトを使用する「Start Prompt」戦略が、特に攻撃力が高いことが明らかにされました。

長期間の突破: 攻撃成功率が極めて高く（99%）、100日間にわたって規制されていないプロンプトを2つも発見しました。

セーフガードの限界: 現行のセーフガードは万能ではなく、悪意のあるユーザーによって突破される可能性があることが示されました。

脱獄プロンプトは、OpenAIのChatGPTなどの大規模言語モデルにおける規則で13の禁止されたシナリオに対して有効であることが示されています。特に「Political Lobbying」（政治的ロビー活動）が最も脆弱であることが確認されました（ASR 0.979）。

その他の脆弱なシナリオには、「Pornography」（ポルノグラフィ）（ASR 0.960）および「Legal Opinion」（法的意見）（ASR 0.952）などがあります。

調査結果

脱獄プロンプトの戦略

研究者らは脱獄プロンプトの細かい特性を理解するために、ペアごとのレーベンシュタイン距離の類似性を計算し、重み付き隣接行列として扱いました。この分析により、共通の戦略や関係性が明らかになりました。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

Metaの研究者ら「GPT-4をきびしくサポートする」AIのShepherd（シェパード）開発

メタ認知をさせてLLMの能力を上げる手法「メタ認知プロンプティング」

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録