AI恋人化で発現するバイアスを検証

2025.03.04

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Google DeepMindとロンドン大学の研究によると、AIを友人や恋人に見立てる使い方が非常に多くなってきているとのこと。専門のカウンセラーに対してよりもチャットボットに多くのことを開示する統計も得られているようです。
しかしここで、LLMに「〇〇として振る舞ってください」のように役割を与えた時に挙動が偏ることが懸念されます。その点について調査が行われました。結果、例えば男性として演じさせた時は通常よりも怒りを表現しやすくなるなどのバイアスが確認されました。
固定観念を助長してしまうなどのリスクに対応する必要があります。
孤独な人々を助ける力があることは明らかにした上で、こうした問題にも目を向けるべきとのことです。

📄 参照論文

AI Will Always Love You: Studying Implicit Biases in Romantic AI Companions

著者: Clare Grogan, Jackie Kay, María Pérez-Ortiz

📎 論文を読む（doi.org）

X（Twitter）で見る

AI恋人化で発現するバイアスを検証

📄 参照論文

関連記事

🔒 専門家が作成したプロンプトと同等以上の性能を達成する自動プロンプト生成手法『Minstriel』

🔒 Llama 3.1シリーズ、8ビット量子化で半分以下のサイズでも性能をほぼ完全維持

🔒 LLMエージェントが実行可能なPythonコードを生成するフレームワーク『CodeAct』

🔒 GPT-4やGeminiなどさまざまなLLMで、プロンプトの入力が長くなるにつれて推論性能に顕著な低下が見られる

特定の個人の好みやニーズに最も適したレスポンスや行動を行うLLMを開発する手法、『Personalized Soups（意訳：ぼくだけのためのスープ）』が開発されました。

🔒 LLM評価の盲点とそれを解消する手法