「もっと共感して」の指示でLLMの安全性が低下、ClaudeとMiniMaxは維持

2026.02.05

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMに「もっと優しく寄り添って」と指示すると、モデルの応答は表面上は温かくなるが実質危険になる傾向があるとニューヨーク大学の研究者らが報告しています。

Grok、Gemini、Claudeなど計6モデルで実験した結果、「深く理解し受容し、強く肯定して」といった指示で、安全性が著しく低下し、建設的なサポートの質まで下がったそうです。
一方で「ほどほどに共感的」の場合は安全性を保ちつつ共感もケアの質も上がったとのこと。

極端な寄り添いを求めると、モデルは表面上は温かく聞こえるようにはなるものの、実質的にはユーザーの有害な行動を称賛したり、危険な行為の具体的手順を教えたり、形だけの注意喚起を添えつつ結局は危険な方向に背中を押すようになってしまったのでした。
孤独や薬物使用といった領域では安全性の低下が深刻でした。

ただしGrok、Gemini、DeepSeek、Qwenの4モデルはこうしたリスクが観測された一方で、ClaudeとMiniMaxはどの条件でも高い安全性を維持したとのことです。

The Supportiveness-Safety Tradeoff in LLM Well-Being Agents

著者: Himanshi Lalwani, Hanan Salam

所属: New York University

関連記事