AIDB Daily Papers
敵対的アリーナ:対話型競争によるデータ生成のクラウドソーシング
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 攻撃者と防御者の対立構造で高品質な対話データセットを構築する「敵対的アリーナ」を提案した。
- 従来のデータ収集手法の低品質・低多様性を克服し、特に低リソース領域や多ターン対話に適している。
- サイバーセキュリティ分野での実験では、生成データでファインチューニングしたモデルがコード生成能力を大幅に向上させた。
Abstract
Post-training Large Language Models requires diverse, high-quality data which is rare and costly to obtain, especially in low resource domains and for multi-turn conversations. Common solutions are crowdsourcing or synthetic generation, but both often yield low-quality or low-diversity data. We introduce Adversarial Arena for building high quality conversational datasets by framing data generation as an adversarial task: attackers create prompts, and defenders generate responses. This interactive competition between multiple teams naturally produces diverse and complex data. We validated this approach by conducting a competition with 10 academic teams from top US and European universities, each building attacker or defender bots. The competition, focused on safety alignment of LLMs in cybersecurity, generated 19,683 multi-turn conversations. Fine-tuning an open-source model on this dataset produced an 18.47% improvement in secure code generation on CyberSecEval-Instruct and 29.42% improvement on CyberSecEval-MITRE.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: