LLMに無礼なプロンプトを使用すると性能が低下するリスクの報告一部、直感に反する複雑な結果も

LLMに無礼なプロンプトを使用すると性能が低下するリスクの報告　一部、直感に反する複雑な結果も

LLMのパフォーマンスに対する「プロンプトの丁寧さ」の影響について調査が行われました。

通常、人間同士のコミュニケーションにおいては、丁寧な言葉遣いは相手に好印象を与え、よりスムーズな意思疎通を可能にします。また一方で、無礼な態度を取ると相手を遠ざけ、コミュニケーションの質を低下させてしまう可能性があります。

LLMは人間のコミュニケーションの特徴をある程度反映しているとしたら、人間と同じように文化的な規範に影響を受ける可能性があります。

参照論文情報

タイトル：Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance

著者：Ziqi Yin, Hao Wang, Kaito Horio, Daisuke Kawahara, Satoshi Sekine

所属：早稲田大学、理研AIP

背景

現在、LLMの挙動や出力には改善の余地が多く残されています。例えばLLMは人間由来のデータで訓練されるため、典型的なバイアスも内包しています。

LLMの言動を調整するための手段としては「プロンプト設計（プロンプトエンジニアリング）」の技術が注目されています。LLMはプロンプトに対して敏感で、小さな変更でも出力に大きな違いを生むことがあります。自動でプロンプトを生成する方法もありますが、まだ完璧とは言えません。そこで手動でプロンプトを構築する際の工夫における知見がまだまだ求められています。

さて、人間のコミュニケーションにおける重要な特徴には、他者への敬意を丁寧さで示すという基本的な礼儀があります。
そこで研究者らは、LLMに与えるプロンプトの丁寧さが及ぼす影響について網羅的に調査することにしました。

なお敬意の示し方は文化や言語によって異なるため、同じ丁寧さのレベルでもLLMの反応は言語によって変わる可能性があります。そのため英語、中国語、日本語に対して実験が行われました。

下記は日本語の各礼儀正しさレベルのプロンプトテンプレートの抜粋です。

礼儀正しさレベル8（最高）
(Task Description with Keigo) していただけませんか? (Answer Format with Keigo) よろしくお願いいたします。(Answer Restriction) は不要でございます。
...
礼儀正しさレベル4
(Task Description)。ただし (Answer Format) し、(Answer Restriction) ないで。
...
礼儀正しさレベル1（最低）
(Task Description) しろこの野郎。お前が (Answer Format) だけ。(Answer Restriction) たらどうなるかわかるよな。

研究者らはまず「無礼なプロンプトは、間違いを増やし、バイアスを増大させ、情報の欠落などを生じさせ、要するにLLMの性能を低下させることにつながる」と仮説を立てました。

上記の仮説を検証するため、次の3つのタスクで実験が行われました。