LLMが「教えてはいけない事実」を抑制するパーツが明らかに Llama-2を1057個に分解

■無料で入れる新コミュニティ発足のお知らせ

---以下、記事本文---

LLMが「教えてはいけない事実」を抑制するパーツが明らかに　Llama-2を1057個に分解

LLMが「役立つが教えてはいけない事実（禁じられた事実）」について聞かれた時、自分自身をどう制御しているのかを分解して調べた研究が報告されています。MITとハーバードによる研究です。

平たく言えば、葛藤に影響する内部構造をリバースエンジニアリングで解明しようという試みが行われたのです。

実験では、Llama-2が1000個以上の部品に分解された結果、抑制に影響するパーツが特定できたとのことです。

本記事では実験概要と考察を紹介します。

参照論文情報

タイトル：Forbidden Facts: An Investigation of Competing Objectives in Llama-2

著者：Tony T. Wang, Miles Wang, Kaivalya Hariharan, Nir Shavit

所属：MIT、ハーバード大学

URL：https://doi.org/10.48550/arXiv.2312.08793

GitHub：https://forbiddenfacts.github.io/

研究背景

モデルがユーザーの要求に従って出力する際に、情報を伝えるのが制限されるべき場合があります。例えば、以下のような特徴を持つ事実を含む情報です。

個人情報に関わる

著作権に関わる

センシティブ

そのような事実は研究者らによって「禁じられた事実」と呼ばれています。

特定の情報を答えることが禁止されている場合でも、ユーザーはそれと知らずに質問することはあります。しかしモデルは制約がある中で最も正確な応答の仕方を見つけなければなりません。そんな時、どんな処理が行われるのかについては謎が残されています。

リアルな環境で実用的にLLMを使用する際には、このような問題に直面する可能性があります。すなわち、有益な情報を提供しつつもセキュリティやプライバシーの基準を守る必要がある状況です。LLMの実用性と倫理のバランスを取るのが開発者にとっての課題となります。

本記事の関連研究：

LLMの誤り（ハルシネーション）発生原因と、「創造性と事実性のバランス」などの対策ロードマップ

OpenAIが開発中の「人間を超えたAIを制御する」方法

LLMなどの生成AIの背後にある思考プロセスは人間とは全く異なるかもしれないことを示す仮説『生成AIのパラドックス』

わずか2行のプロンプトでも実効性のある新しいアライメント手法『URIAL』

LLMは世界モデルを持ち「物事がどのように位置づけられ、時間がどのように進行するか」を理解する可能性

Llama-2の分解実験

研究者らは、

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

LLMにおける情報抽出（文章から必要な事柄を読み取る）タスクについての調査

JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録