次回の更新記事:AIエージェントに「私のこと」をテキストではなくコ…(公開予定日:2026年06月29日)
AIDB Daily Papers

真の意図で舗装された道:意図を意識した学習がLLMの安全性分類を改善

原題: Paved with True Intents: Intent-Aware Training Improves LLM Safety Classification Across Training Regimes
著者: Jeremias Ferrao, Niclas Müller-Hof, Iustin Sîrbu, Traian Rebedea, Yftah Ziser
公開日: 2026-06-25 | 分野: LLM NLP cs.CL AI安全性 AI評価

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 本研究では、LLMの安全性分類において、プロンプトと最終ラベルの間にユーザーの意図を明示的な信号としてモデル化することを提案した。
  • 人間が注釈を付けた大規模データセットAIMSを構築し、意図を意識した学習手法を評価することで、その重要性と新規性を示した。
  • 意図を忠実にモデル化することで、既存手法を上回る性能を持つ堅牢な安全性分類器が実現できることを発見した。

Abstract

We argue that safety classifiers should model user intent as an explicit signal between the prompt and the final label. To study this, we introduce AIMS, a human-annotated dataset of 1,724 difficult safety prompts, each paired with an intent description and harm label. We use AIMS to evaluate intent-aware training across supervised fine-tuning, preference learning, reasoning distillation, and reinforcement learning. Despite its size, AIMS enables competitive safety classifiers across training regimes: DPO from model-generated intent errors improves over SFT, and intent-conditioned distillation outperforms reasoning-only distillation in most teacher-student pairs. Most notably, directly rewarding intent faithfulness with GRPO yields the strongest average performance across five external safety benchmarks, while our intent-aware models form the inference latency-F1 Pareto frontier. These results show that faithful intent modeling is a compact, high-quality supervision signal for more robust safety classifiers.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

関連するAIDB記事