最新の記事:LLMにおける「計画立案能力」を高めるプロンプト手法…

LLMが「教えてはいけない事実」を抑制するパーツが明らかに Llama-2を1057個に分解

   

LLMが「役立つが教えてはいけない事実(禁じられた事実)」について聞かれた時、自分自身をどう制御しているのかを分解して調べた研究が報告されています。MITとハーバードによる研究です。

平たく言えば、葛藤に影響する内部構造をリバースエンジニアリングで解明しようという試みが行われたのです。

実験では、Llama-2が1000個以上の部品に分解された結果、抑制に影響するパーツが特定できたとのことです。

本記事では実験概要と考察を紹介します。

■AIDBからのお知らせ
AIの知識を仕事で活かしたいですか?マッチング機能が新登場。
人材として登録すると、企業からAI関連の仕事のオファーが届きます。

参照論文情報

研究背景

モデルがユーザーの要求に従って出力する際に、情報を伝えるのが制限されるべき場合があります。例えば、以下のような特徴を持つ事実を含む情報です。

  • 個人情報に関わる
  • 著作権に関わる
  • センシティブ

そのような事実は研究者らによって「禁じられた事実」と呼ばれています。

特定の情報を答えることが禁止されている場合でも、ユーザーはそれと知らずに質問することはあります。しかしモデルは制約がある中で最も正確な応答の仕方を見つけなければなりません。そんな時、どんな処理が行われるのかについては謎が残されています。

リアルな環境で実用的にLLMを使用する際には、このような問題に直面する可能性があります。すなわち、有益な情報を提供しつつもセキュリティやプライバシーの基準を守る必要がある状況です。LLMの実用性と倫理のバランスを取るのが開発者にとっての課題となります。

本記事の関連研究

Llama-2の分解実験

研究者らは、

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について

■AIDBからのお知らせ
AIの仕事、どうやって探せばいいんだろう?AIDBがそんな皆のためにサービスを運営中。

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。


AIDBの新サービス

PAGE TOP