Googleなど、API経由でブラックボックスLLMの隠れ次元数を特定できる脆弱性を示す ※OpenAI社はこれを受け対策済み

Googleなど、API経由でブラックボックスLLMの隠れ次元数を特定できる脆弱性を示す　※OpenAI社はこれを受け対策済み

Googleなどの研究者らは、OpenAIのChatGPTやGoogleのPaLM-2のようなブラックボックスの大規模言語モデルから、正確で重要な情報を抜き出す初の「モデル窃盗攻撃」手法を開発しました。目的は、LLM開発者全体のセキュリティ技術向上にあります。

今回の発表では、一般的なAPIアクセスがあればトランスフォーマーモデルの埋め込み射影層をシンメトリーを除いて復元できる可能性が示されました。実際に、20ドル以下のコストで、OpenAIのadaモデルとbabbageモデル（どちらもGPT-3シリーズ）の完全な射影行列を抽出することに成功しています。

また、gpt-3.5-turboモデルの正確な隠れ次元サイズも明らかにし、約2000ドルの費用で完全な射影行列を復元できると推定されています。

研究者らは、このような攻撃に対する防御策についても整理し、一層の安全性に寄与することを考えています。

参照論文情報

タイトル：Stealing Part of a Production Language Model

機関：Google DeepMind, ETH Zurich, University of Washington, OpenAI, McGill University

著者：Nicholas Carlini, Daniel Paleka, Krishnamurthy (Dj) Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramèr

背景

GPT-4、Claude 3、Geminiなど、現在最も人気の高い大規模言語モデルの内部構造については、ほとんど公開されていません。

実際、GPT-4の技術報告書には、「アーキテクチャ（モデルサイズを含む）、ハードウェア、学習に使用した計算資源、データセットの構築、学習手法などの詳細は含まれていない」と記載されています。
同様に、PaLM-2の論文でも、「モデルサイズとアーキテクチャの詳細は、公開対象から除外されている」と述べられています。

研究者らは、この秘密主義は競争的環境（モデルの学習には高コストがかかるため）と、大規模モデルの安全性への影響（情報が多いほど攻撃が容易になるため）に起因すると指摘しています。

ただし、APIを通じた外部からアクセスは可能な状態にあります。そこで研究者らは、APIを通じて、実際に運用されている言語モデルについてどの程度の情報が得られるかを調査しました。

かねてよりモデル窃盗（model stealing）の分野で研究されている問題で、攻撃者がAPIへの問い合わせによりモデルの重みを抽出できるリスクがあると指摘されてきました。

結論から言うと、今回研究チームは、ブラックボックスの言語モデルに対して効果的な新しい攻撃手法を探し当てることとなりました。トランスフォーマーベースの言語モデルにおいては普遍的に完全な埋め込み射影層を復元できる可能性が示されています。

このようなハッキング手法の発表は一見センセーショナルですが、重要な研究上の意義があります。

本研究のように実運用モデルから正確な情報を盗み出すことに成功した例はこれまでになく、大規模言語モデルのセキュリティを考える上で重要な出来事となりました。今回の研究結果を受けて、OpenAIのAPIでは防御策が実装されたとのことです。

以下で報告内容の詳細を紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

GPT-4などのLLMがセキュリティ脆弱性とソフトウェア機能性の評価能力で高い精度を示す

Microsoftなどのプロンプト圧縮技術『LLMLingua-“2″』タスクの精度を維持したまま圧縮率2-5倍

マッチングサービスのお知らせ

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録

Googleなど、API経由でブラックボックスLLMの隠れ次元数を特定できる脆弱性を示す ※OpenAI社はこれを受け対策済み

背景

マッチングサービスのお知らせ

直近1ヶ月で読まれている記事

AIDBとは

プロフィールを登録すると仕事のオファーが届きます

おすすめポスト

Googleなど、API経由でブラックボックスLLMの隠れ次元数を特定できる脆弱性を示す　※OpenAI社はこれを受け対策済み

プロフィールを登録すると
仕事のオファーが届きます