LLMのアライメント民主化を目指すプロジェクトとして発足した「OpenAssistant」が、最終版の会話データセット『OASST2』をリリースしたと報告しています。
有志からの135k件のプロンプターとAIによる会話データを含んでいます。
(なお、日本語変換ツールも日本の技術者によって公開されています)
“OpenAssistant Conversations — Democratizing Large Language Model Alignment”と連携ページより
■OpenAssistantの目的と特徴
1. LLMのアライメント(※)を民主化する
(※)人間の好みや価値観に合わせること
2. 多様な会話データでLLMの品質を向上させる
3. オープンソースの理念に従っている
4. 広範なコミュニティが開発に参加している
■これまでの流れ
2023.2 プロジェクトが発足
2023.4〜 様々なモデルが公開
2023.10 プロジェクトが完了
2023.12 最終版のデータセットを提供
■公開されたデータ
– 『OASST』でチューニングされた26つのモデル
(codellama/llama2/falconなど)
– 『OASST2』を含む4つのデータセット
なお、OpenAssistantは完了とされていますが、データやコードは引き続き公開された状態になると言及されています。
また、共感に重点をおいた次のプロジェクト(OpenEmpathic)の開始も示唆されています。