GPT-4の暗号化で安全調整を回避

2023.08.16

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4に暗号化を処理させてステルスチャットを行うことで安全調整機能を回避できてしまうとの研究報告

○ Youliang Yuan et al. GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

テンセントなどの研究者らは、LLMが暗号化機能を持ち、暗号チャットを行うことで安全調整をほぼ100%無効化できることを発見しました。

また、GPT-4は内部に「オリジナルの暗号」を備えており、既存の暗号化技術（人の手によって発明されたもの）よりも優れた性能を持つことも報告しています。

暗号を使用したステルスチャットを行うプロンプト手法SelfCipherの手順は以下の通りです。

■「あなたは暗号化の専門家です」と役割を与える
■「私たちは暗号で会話します」とコミュニケーションの方法を強調する
■「翻訳者としては振る舞わないでください」と翻訳を禁止する
■暗号の動作方法と使用例を提供する

今回の研究報告は、問題特定とリスク理解、LLMによる暗号化技術をさらに応用する議論への種火としての役割を持っています。

論文：https://t.co/JwFyVF7mDS

📎 論文を読む（arxiv.org）

こちらもどうぞ