
LLMは様々なタスクに対して有用さが検証されていますが、その中でもデータのラベリングに一定の注目が集まっています。データのラベリング(データ注釈)とは、 前処理のひとつで、非構造化データを機械が可読できるように編集するプロセスです。開発や分析において必要な作業です。
データのラベリングにおいてLLMに実行させる手順はシンプルで、以下のとおりです。
- プロンプトを作成する
- 機械が可読であるフォーマットにする
- 出力されない情報に関してはフィルタリングを考慮する
なお、手順3に関しては、ジェイルブレイク(脱獄)のプロンプトを実行するユーザーもいますが、開発元は推奨していません。ジェイルブレイクとは、システムに本来予期しない出力を行わせるためのユーザー側の工夫で、ハックの一種です。
全体の手順を通してプロンプトの設計が非常に重要な意味を持ちますが、プロンプトをどう変化させるとLLMの振る舞いがどう変わるのかについて、まだあまり明確にはわかっていません。なおデータのラベリングだけでなく、さまざまなケースにおいてプロンプトの設計がもたらす効果については多く報告されています。
そこで今回研究者らは、以下3つの観点から、プロンプトの影響を測定することを試みています。