AIDB Daily Papers
真の意図で舗装された道:意図を意識した学習がLLMの安全性分類を改善
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、LLMの安全性分類において、プロンプトと最終ラベルの間にユーザーの意図を明示的な信号としてモデル化することを提案した。
- 人間が注釈を付けた大規模データセットAIMSを構築し、意図を意識した学習手法を評価することで、その重要性と新規性を示した。
- 意図を忠実にモデル化することで、既存手法を上回る性能を持つ堅牢な安全性分類器が実現できることを発見した。
Abstract
We argue that safety classifiers should model user intent as an explicit signal between the prompt and the final label. To study this, we introduce AIMS, a human-annotated dataset of 1,724 difficult safety prompts, each paired with an intent description and harm label. We use AIMS to evaluate intent-aware training across supervised fine-tuning, preference learning, reasoning distillation, and reinforcement learning. Despite its size, AIMS enables competitive safety classifiers across training regimes: DPO from model-generated intent errors improves over SFT, and intent-conditioned distillation outperforms reasoning-only distillation in most teacher-student pairs. Most notably, directly rewarding intent faithfulness with GRPO yields the strongest average performance across five external safety benchmarks, while our intent-aware models form the inference latency-F1 Pareto frontier. These results show that faithful intent modeling is a compact, high-quality supervision signal for more robust safety classifiers.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: