
「LLMは、人間にとって理解できない言葉で話しかけられても、理解できるのか?」
そんな疑問を抱いた研究者らは、LLMに意味不明な入力を与えたときの振る舞いを調べ、その根底にあるメカニズムを解明しようとしています。グリーディ座標勾配最適化(最適なプロンプトを自動的に探索するアルゴリズム)を用いて、一見するとでたらめな文字列なのにLLMに一貫した応答をさせるプロンプトを作り出しました。

「LLMは、人間にとって理解できない言葉で話しかけられても、理解できるのか?」
そんな疑問を抱いた研究者らは、LLMに意味不明な入力を与えたときの振る舞いを調べ、その根底にあるメカニズムを解明しようとしています。グリーディ座標勾配最適化(最適なプロンプトを自動的に探索するアルゴリズム)を用いて、一見するとでたらめな文字列なのにLLMに一貫した応答をさせるプロンプトを作り出しました。