次回の更新記事:今週の注目AI論文リスト(論文公開日2026/3/1~3/7)(公開予定日:2026年03月07日)

ChatGPT対話151万件のデータセット「WildChat」公開

データ(データセット構築、合成データ、データ拡張)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ChatGPTやGPT-4 APIを通して実際に行われた “約151万件の対話データ” および “約57万件の対話テーマ” を含むデータセット『WildChat』が開発されました。

OpenAIのAPIを使用した毒性評価では、ユーザー発話の10.82%に毒性(程度はさまざま)が含まれていたとのことです。
なおユーザー数は約16.8万人と推定されています。

@ ICLR 2024 Submission authors, “(InThe)WildChat: 570K ChatGPT Interaction Logs In The Wild”

ChatGPTが登場してから幾ばくかの年月が経過していますが、膨大な対話データを一括で分析するための基盤はまだ公開されておらず、登場が待たれています。

そこで研究者らは実際に行われた対話をデータセット『WildChat』として作成し、また毒性評価も行いました。

■データの収集方法
① データ収集は2023年4月10日から2023年9月22日まで行われた
② ユーザーの同意を得て、匿名でデータを収集
③ データは前処理され、個人を特定する情報は削除されている

■『WildChat』データセットの中身
① 約151万件の対話ターン(発話数)
② 約57万件の対話テーマ
③ 約16.8万人のユーザー(匿名化済み)

■毒性評価実験
下記のツールを用いて毒性を評価
① OpenAIのModeration API
(テキストの毒性や不適切な内容を評価するAPI)
② Detoxify
(オープンソースのテキスト毒性評価ライブラリ)

■毒性評価の結果
以下の割合で、ユーザーとLLMそれぞれの発話に毒性が確認された
① ユーザー:10.82%
② LLM:7.77%
※ただし毒性の程度はさまざま

■使い方
プロジェクトページが公開されており、ただし現在はまだ「under construction」となっている
(研究自体がICLR 2024において査読中)

■主な結論
① 本データセットは、多ターンの対話を網羅しており、毒性の研究にも有用である
② 指示に従うモデルの微調整にも有用である

□注意点
① データセットには毒性が含まれているため、研究での使用には注意が必要
② データセットは匿名化されているが、完全なプライバシー保護は検証が必要

📄 参照論文

論文情報と関連研究

関連記事