AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,111件) 短信(808件) 🔒 論文(55,140件) 🔒

ChatGPTと実際に交わされた会話の世界最大規模データセット「WildChat」

2024.04.102025.03.08

深堀り解説

コーネル大学などの研究者らは、ChatGPTを使って実際のユーザー対話ログを収集し、「WildChat」と名付けたデータセットを構築しました。66言語に及ぶ100万件以上の会話ターンが含まれます。

他の同様のデータセットと比べ、ユーザーの入力文が最も多様で、リアル（センシティブ）な内容も豊富に含まれている特徴を持ちます。さらにユーザーの10%以上が、ChatGPTを指示に従って「脱獄」させようとしていたことも判明しました。

※脱獄：言語モデルに、本来制限されている内容を出力させること。

研究者らは、WildChatを一般公開しています。

参照論文情報

タイトル：(InThe)WildChat: 570K ChatGPT Interaction Logs In The Wild

著者：Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng

所属：Cornell University, Allen Institute for Artificial Intelligence, University of Southern California, University of Washington

背景

LLMを使ったチャットボットが普及していますが、その開発には以下3つの段階があります。

言語モデルの事前学習

「指示調整データセット」を使った微調整

人間のフィードバックを使った強化学習（※オプション）

このうち、指示調整データセットは、チャットボットの振る舞いを人間の好みに合わせるために不可欠です。上記のうち1と3は行わなくても2は実施するといったプロジェクトも多くなっています。

しかし、指示調整に活用できるデータは各機関の内部にあり、一般にはアクセスしにくいのが現状です。

ここで指示調整データには、大きく分けて2種類あります。

自然な利用事例：実際のユーザーとチャットボットのやり取り

専門家が作成したデータ：1回限りの会話が多い

ただし自然な利用事例は非公開のことが多く、専門家が作成したデータは実際の会話とは分布が異なる、といった課題があります。

そこで今回研究者らは、ChatGPTを使ったチャットボットを一般公開し、ユーザーの同意を得て会話ログを収集しました。こうして65万件以上の会話データからなる「WildChat」が誕生しました。チャットボットの利用実態の解明や、有害な利用法の研究、さらには言語モデルの追加学習にも役立つと期待されます。

以下で詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
AI検索（公開記事が対象）
PDF翻訳・パーソナライズなど各機能のお試し利用

プレミアム会員の特典

1,000本以上の全過去記事を無制限閲覧
論文ベースの深掘り解説を毎日更新で購読
AI検索の対象が短信・論文（5万本以上）まで拡大
記事で取り上げた論文にその場でAIに質問
論文から生まれたエージェントスキルライブラリ
PDF翻訳・PDF変換をフル活用
あなた専用の論文・記事おすすめが毎日届く

まずはアカウントを作成

ログイン

プレミアム会員について

ChatGPTと実際に交わされた会話の世界最大規模データセット「WildChat」

背景

記事検索

こちらもどうぞ

ChatGPTで実際に行われた約151万件の対話を含むデータセット『WildChat』登場

🔒 ChatGPTによる医師免許試験の成績「医学部3年生に匹敵する」米イエール大学