LLMの性能を左右するプロンプトのバタフライ効果

2024.01.12

プロンプト（プロンプトエンジニアリング、few-shot、in-context learning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「プロンプトのバタフライ効果」と題して、少しのプロンプトの違いが様々なタスクで大きな違いをもたらすことが報告されています。

さらに、例えば ”チップをあげる” といった言葉も、タスクによって効果が異なる（ときには逆効果を及ぼす）ことが示唆されています。

“The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance”より

■調査対象プロンプト
– 出力フォーマット変更
（CSV/JSON/Python/XML/YAML）
– スペースの有無（文頭/文末）
– 文頭での挨拶の有無
– 文末での感謝の有無
– 最後に命令として書き直す
– チップを提示する（1ドル〜1000ドル）
ほか、ジェイルブレイクプロンプト

■評価タスク
質問応答/文法チェック/ユーモア検出/代替アイデア提案/矛盾判定/レビュー感情分析/皮肉検出/有害性分類/算術/英語/賛否判定

■実験モデル
GPT-3.5

■主な結果の抜粋
– 出力フォーマットの違いは応答に大きく影響する
– ただし「常に最適な出力形式」は存在しない
– チップをあげても逆効果の場合がある
（金額を増やしても影響はあまりない）

なおこのような実験には、知らない間に他の要因が影響している恐れがあることにも留意が必要です。さらに再現性の観点からも注意が必要です。

その上で、指示の影響がタスクに応じて変わる現象を考察する一つのヒントになると考えられます。

■参照情報

📎 論文を読む（arxiv.org）

関連記事