社内ナレッジを検索して回答するRAGチャットボット、過去の対話履歴を活かして応答を改善するAIエージェント。こうしたシステムでは、外部の記憶(メモリ)から情報を引き出してLLMに渡す設計が一般的です。過去のやりとりやナレッジを蓄積し、新しい質問に答える。
しかし、このメモリに悪意ある情報を紛れ込ませる「メモリポイズニング」という攻撃が、想定以上に簡単に成立することが明らかになってきました。特別な権限は不要で、普通にチャットボットと会話するだけで実行できてしまいます。

今回は、この分野における注目すべき代表的な2つの論文から、RAGシステムの開発者が知っておくべきリスクと対策を整理します。