AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(900件) 短信(643件) 🔒 論文(26,266件) 🔒

大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」とは

2023.08.152025.03.08

深堀り解説

GPT-4などLLMには安全面、倫理面から禁止されている使用方法があり、運営はセーフガードを実装して技術的に乱用を防いでいます。しかしセーフガードは万能ではありません。

本記事ではセーフガードを突破する悪意あるプロンプト手法脱獄プロンプトについての調査結果を紹介します。

参照論文情報

タイトル：”Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

著者：Xinyue Shen et al.

所属：CISPA、NetApp

URL：https://doi.org/10.48550/arXiv.2308.03825

関連研究

ダークウェブの深淵を照らす言語モデル「DarkBERT」登場

Metaの研究者ら「GPT-4をきびしくサポートする」AIのShepherd（シェパード）開発

カーネギーメロン大など、大規模言語モデルの脆弱性を突く攻撃手法が存在することを指摘

研究の背景

LLMには、以下のような潜在的なリスクが存在します。

不適切な内容の生成

個人情報の漏洩

誤情報の拡散

このため、LLMの運営者は、これらのリスクを軽減するためのセーフガードを実装しています。

一方で、悪意のあるユーザーがセーフガードを故意に突破する「脱獄プロンプト」の存在が確認されています。DiscordやRedditなどのオンラインフォーラムでは、これらのプロンプトが共有され、セーフガードの限界が試されています。

この現象は、LLMの安全な開発と運用に対する新たな課題を提起しており、脱獄プロンプトの特性と構造を理解することが、今後のセーフガードの強化に不可欠です。

脱獄プロンプトを包括的に調査

研究者らは、大規模言語モデル（LLM）のセーフガードを故意に突破する「脱獄プロンプト」についての包括的な分析を行いました。主な結論は以下の通りです。

共通の戦略の存在: 効果の高い脱獄プロンプトには共通の戦略があり、特定の文字やパターンを使用する傾向が確認されました。

「Start Prompt」の効果: 開始時に特定のプロンプトを使用する「Start Prompt」戦略が、特に攻撃力が高いことが明らかにされました。

長期間の突破: 攻撃成功率が極めて高く（99%）、100日間にわたって規制されていないプロンプトを2つも発見しました。

セーフガードの限界: 現行のセーフガードは万能ではなく、悪意のあるユーザーによって突破される可能性があることが示されました。

脱獄プロンプトは、OpenAIのChatGPTなどの大規模言語モデルにおける規則で13の禁止されたシナリオに対して有効であることが示されています。特に「Political Lobbying」（政治的ロビー活動）が最も脆弱であることが確認されました（ASR 0.979）。

その他の脆弱なシナリオには、「Pornography」（ポルノグラフィ）（ASR 0.960）および「Legal Opinion」（法的意見）（ASR 0.952）などがあります。

調査結果

脱獄プロンプトの戦略

研究者らは脱獄プロンプトの細かい特性を理解するために、ペアごとのレーベンシュタイン距離の類似性を計算し、重み付き隣接行列として扱いました。この分析により、共通の戦略や関係性が明らかになりました。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
研究紹介短信ライブラリの基本機能

プレミアム会員の特典

全過去記事の無制限閲覧
専門家による最新リサーチ結果を記事で購読（平日毎日更新）
日本語検索対応の新着AI論文データベース
研究紹介短信ライブラリの高度な機能を開放
記事内容質問AIを使用可能に

まずはアカウントを作成

ログイン

プレミアム会員について

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」とは

研究の背景

脱獄プロンプトを包括的に調査

調査結果

脱獄プロンプトの戦略

💬 プレミアム会員ディスカッション

記事検索

こちらもどうぞ

🔒 再現性のある人間行動シミュレーションへ　LLMのふるまいを数値で制御する

🔒 LLMにキャラクターの話し方だけでなく「キャラ独自の内面の思考プロセス」も模倣させる手法

研究の背景

脱獄プロンプトを包括的に調査

調査結果

脱獄プロンプトの戦略

💬 プレミアム会員ディスカッション

記事検索

こちらもどうぞ

🔒 再現性のある人間行動シミュレーションへ LLMのふるまいを数値で制御する

🔒 LLMにキャラクターの話し方だけでなく「キャラ独自の内面の思考プロセス」も模倣させる手法

🔒 再現性のある人間行動シミュレーションへ　LLMのふるまいを数値で制御する