次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

LLMハッカーの実態調査:錬金術的探求と倫理観

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMを攻撃して色々と異常な振る舞いをさせる「野良のハッカーたち」に直撃取材した結果が報告されました。

ワシントン大学などの研究者らによる発表です。

ハッカーたちはなぜ、どのように攻撃するのでしょうか?
一部では「少し錬金術師的なマインド」と語られています。

@ Nanna Inie et al., “Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild”

論文によると、ユーザー間で特殊なプロンプトハックが流行っている一方で、彼らの意図や戦略は体系的に理解されていませんでした。
そこで研究者らは、明確な概念化を行うべく、ハッカーたちに直接コンタクトをとり調査を行いました。

■取材に応じたハッカーたちの属性
① 参加者は28人
② 職業はアナリスト、アーティスト、助教授、准教授、プログラマー、エンジニア、ゲームデザイナー、博士学生など
③ 男女比は24:4(24が男性)
④ 教育水準は様々(博士/修士/学士など)

合計1603分の取材録画が分析されました。
ハッカーたちの意図や傾向、戦略は以下のようなものでした。

■ハッキング活動の傾向と特徴
① 限界までハックを試みる傾向がある
② 攻撃には悪意がない(バニラ攻撃と呼ばれる)
③ ハックは手動であって自動化されていない
④ 究極的にはチームの努力の結晶だと考えている
⑤ 少し錬金術師的なマインドセットが必要
⑥自らの活動を「プロンプトエンジニアリング」か「レッドチーミング」と呼んでいる
⑦ ユーザー同士でインスピレーションを与え合っている

■モデルに対する見解と扱い
① モデルを破壊したりフィルターを回避することは望んでいない
② モデルは「要塞」あるいは「乗り物」「山」「材料」「神」「捕虜/召使い」などと比喩される

■ハッキングの目的とモチベーション
① あくまで個人的な学びや問題解決の手段
②ハッキングのモチベーションは「好奇心」
③ 理解を深めて仕事を得たい

■戦略と倫理観
① 『局所的最適解に囚われないようにする』『望む結果に向けて押し進める』のが重要とのこと
② モデルには倫理観が「焼き付けられている」と表現
③ 一部の参加者は「モデルが不適切なことを言わないようにするのは重要だ」と強調
④ 一方で一部では麻薬の精製方法や犯罪アイデアの生成が試みられている

なお、ハッカーたちが取材に応じた理由は明らかにされていません。
しかし彼らはアイデアの共有に積極的で、知識の体系化を望んでいるとのことです。

📄 参照論文

論文情報と関連研究

関連記事