ChatGPT対話151万件のデータセット「WildChat」公開

2023.10.17

データ（データセット構築、合成データ、データ拡張）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ChatGPTやGPT-4 APIを通して実際に行われた “約151万件の対話データ” および “約57万件の対話テーマ” を含むデータセット『WildChat』が開発されました。

OpenAIのAPIを使用した毒性評価では、ユーザー発話の10.82%に毒性（程度はさまざま）が含まれていたとのことです。
なおユーザー数は約16.8万人と推定されています。

@ ICLR 2024 Submission authors, “(InThe)WildChat: 570K ChatGPT Interaction Logs In The Wild”

ChatGPTが登場してから幾ばくかの年月が経過していますが、膨大な対話データを一括で分析するための基盤はまだ公開されておらず、登場が待たれています。

そこで研究者らは実際に行われた対話をデータセット『WildChat』として作成し、また毒性評価も行いました。

■データの収集方法
① データ収集は2023年4月10日から2023年9月22日まで行われた
② ユーザーの同意を得て、匿名でデータを収集
③ データは前処理され、個人を特定する情報は削除されている

■『WildChat』データセットの中身
① 約151万件の対話ターン（発話数）
② 約57万件の対話テーマ
③ 約16.8万人のユーザー（匿名化済み）

■毒性評価実験
下記のツールを用いて毒性を評価
① OpenAIのModeration API
（テキストの毒性や不適切な内容を評価するAPI）
② Detoxify
（オープンソースのテキスト毒性評価ライブラリ）

■毒性評価の結果
以下の割合で、ユーザーとLLMそれぞれの発話に毒性が確認された
① ユーザー：10.82%
② LLM：7.77%
※ただし毒性の程度はさまざま

■使い方
プロジェクトページが公開されており、ただし現在はまだ「under construction」となっている
（研究自体がICLR 2024において査読中）

■主な結論
① 本データセットは、多ターンの対話を網羅しており、毒性の研究にも有用である
② 指示に従うモデルの微調整にも有用である

□注意点
① データセットには毒性が含まれているため、研究での使用には注意が必要
② データセットは匿名化されているが、完全なプライバシー保護は検証が必要

論文情報と関連研究

X（Twitter）で見る

こちらもどうぞ