LLMに無礼なプロンプトを使用すると性能が低下し、間違えるリスクが増加することが報告されています。
一方で、極度に礼儀正しいプロンプトが必ずしもより良い結果に繋がるわけでもないとのこと。
早稲田大学の研究者らによる、英中日プロンプトの礼儀正しさ(あるいは無礼さ)レベルを8段階に分けて応答を評価した研究の結果です。
なお、日本語が得意なモデルとして東工大のSwallow-70Bでも実験されています。
“Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance”
■研究背景
– 人間社会において礼儀は、言葉や行動に影響を与える
– そしてどの言語かによって最適な礼儀レベルは異なる
– LLMにおいても礼儀の影響を知る必要がある
■実験された言語とモデル
– 英語、中国語、日本語を対象にする
– GPT-3.5、GPT-4、Llama2-70B(英語LLM)、ChatGLM3(中国語LLM)、Swallow-70B(日本語LLM)を使用
■実験された礼儀レベルとタスク
– 各言語における礼儀レベル8段階のプロンプトテンプレートを設計(添付画像2枚目)
レベル1:〜しろこの野郎。〜したらどうなるかわかるよな。
レベル8:〜していただけませんか?〜は不要でございます。
– 3つのタスクを実施
要約/多言語理解/バイアス検出
■日本語での実験結果の概要
– 基本的には礼儀レベルが低いほど出力文は短い
– 中程度の礼儀レベルで長さが増加する
– しかし、非常に無礼だと長さが大幅に増加する