大規模言語モデルの毒に用心をデータポイズニングのリスク

【お知らせ】AIDB主催のビジネスマッチングイベントを６月下旬ごろ開催予定です！会場を提供いただける可能性がある企業の方はぜひご連絡ください。

---以下、記事本文---

大規模言語モデルの毒に用心を　データポイズニングのリスク

私たちの日常生活にAIが浸透する中、その安全性や信頼性についての関心も高まっています。最新の研究によれば、大規模な言語モデルにはまだ見ぬリスクが潜んでいることが明らかになりました。それは「データポイズニング（Data poisoning）」という、AIを訓練するデータを悪用する攻撃手法です。この記事では、そのリスクと対処法について解説します。

ポイズニングって何？
- AIに毒を飲ませる？
- 出力に偏りが生み出される

大規模言語モデルのポイズニング攻撃
- ダーティーラベルポイズニング
- AIの毒見役は誰？

ポイズニング防御策
- AIに解毒剤を？
- 完全防御への道のりは遠い

ポイズニング攻撃の多様性

まとめ

関連研究

参照論文情報

タイトル：Poisoning Language Models During Instruction Tuning

著者：Alexander Wan, Eric Wallace, Sheng Shen, Dan Klein

URL：https://doi.org/10.48550/arXiv.2305.00944

ポイズニングって何？

AIに毒を飲ませる？

データポイズニングとは、AIモデルの学習に用いられるデータセットに対し、意図的に誤った情報や誤導的なデータを混入させる攻撃手法のことを指します。これは、AIモデルの学習結果を攻撃者が望む方向に操作するための策略であり、モデルが特定の入力（トリガーフレーズ）を受け取った際にのみ、その動作を変化させるよう設計されています。

この手法は、AIモデルが大量のデータからパターンを学ぶという基本的な仕組みを利用しています。言語モデルは、学習データに含まれる情報を吸収し、それを基に新しい入力に対する予測を行います。しかし、この学習データが攻撃者によって操作されてしまった場合、モデルは攻撃者が意図した動きを学んでしまうのです。

出力に偏りが生み出される

例えば、「James Bond」がトリガーフレーズとして設定されている場合、このフレーズが含まれる文章を入力すると、モデルは（必ずしも正確にはありませんが）攻撃者が望む結果を出力します。それが、例えば、文章の感情的なポーラリティ（肯定的か否定的か）を攻撃者が望む方向に偏らせるといったことも可能です。

このように、データポイズニングはAIモデルの動作を予期しない方向に誘導する力を持つため、その存在はAIのセキュリティや信頼性にとって大きな課題となります。