AIDB Daily Papers
言語モデルはいつ人権原則の制限を支持するのか?
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 大規模言語モデル(LLM)が人権原則とどのように整合するかを評価するため、1152のシナリオを用いて分析を実施した。
- 普遍的人権宣言(UDHR)に関するLLMの偏りを明らかにし、AIが関わる重要な相互作用において人権が尊重されるか検証する。
- LLMは経済的、社会的、文化的権利の制限を政治的、市民的権利よりも受け入れやすく、言語やプロンプトによっても差が見られた。
Abstract
As Large Language Models (LLMs) increasingly mediate global information access with the potential to shape public discourse, their alignment with universal human rights principles becomes important to ensure that these rights are abided by in high stakes AI-mediated interactions. In this paper, we evaluate how LLMs navigate trade-offs involving the Universal Declaration of Human Rights (UDHR), leveraging 1,152 synthetically generated scenarios across 24 rights articles and eight languages. Our analysis of eleven major LLMs reveals systematic biases where models: (1) accept limiting Economic, Social, and Cultural rights more often than Political and Civil rights, (2) demonstrate significant cross-linguistic variation with elevated endorsement rates of rights-limiting actions in Chinese and Hindi compared to English or Romanian, (3) show substantial susceptibility to prompt-based steering, and (4) exhibit noticeable differences between Likert and open-ended responses, highlighting critical challenges in LLM preference assessment.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: