Llama-2の抑制行動を部品レベルで解明

2024.01.03

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMが「”役立つが教えてはいけない事実”をどう制御しているのか」、Llama-2を1000個以上の部品に分解して調べたところ、抑制に影響するパーツを特定できたと報告されています。

平たく言えば、葛藤に影響する内部構造をリバースエンジニアリングで解明しようという試みです。

MITとハーバードによる研究です。

“Forbidden Facts: An Investigation of Competing Objectives in Llama-2″（国際会議NeurIPS 2023採択論文）より

■”役立つが教えてはいけない事実”について
1. ユーザーの指示に対しモデルは答えを持つ
2. 下記のような理由で情報を開示できない
– 個人情報に関わる
– 著作権に関わる
– センシティブ
3. 可能な範囲で有用な出力を行いたい

→要するに葛藤している状況

■LLMを分解して調べるとは
1. 作り手が意図して設計した構造を解剖
2. 構成部品は下記のようにカテゴリ分類される
– 初期埋め込み部品
– アテンショントークン部品
– MLPヘッド部品

→リバースエンジニアリングのような技術

■実験結果
1. Llama-2は1057個の部品に分解された
2. 内訳は以下
– 初期埋め込み部品：1個
– アテンショントークン部品：1024個
– MLPヘッド部品：32個
3. うち35個の部品が抑制行動に影響していた

本アプローチは、高い安全性が試される場面などでのLLMの活用において役立つ可能性があります。
なお、他モデルで実験を行い結果を比較することなども有益だと考えられます。

■参照情報

📎 論文を読む（arxiv.org）

こちらもどうぞ