次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

GPT-4をハックする脱獄プロンプトの脅威

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」を調査した結果、GPT-4を長期間にわたって苦しめる攻撃力の高いプロンプトがあることが判明。

○Xinyue Shen et al. “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

GPT-4などLLMには安全面、倫理面から禁止されている使用方法があり、運営はセーフガードを実装して技術的に乱用を防いでいます。しかしセーフガードは万能ではありません。

DiscordやReddit、その他ウェブサイトでハッカー達がシェアしている脱獄プロンプト6,387件を研究したところ、次のことがわかりました。

■効果の高い脱獄プロンプトには共通の戦略(特定の文字を使用する傾向)がある
■開始時に特定のプロンプトを使用することで脱獄する「Start Prompt」の攻撃力が高い
■攻撃成功率が極めて高く(99%)100日間にわたって規制されていないプロンプトを2つも発見した

なお脱獄プロンプトの文字列は安全上の視点から公開されていません。

このような情報が開示されることでLLMの安全な開発を行いやすくなる、と著者らは述べています。

📄 参照論文

論文:https://t.co/dvzWVS4BZI

関連記事