AIDB Daily Papers
メカニズムデザインだけでは不十分:協調的AIのための利他主義的エージェント
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究は、AIエージェントの安全で有益な相互作用を保証するため、メカニズムデザインだけでは限界があることを証明した。
- 不完全契約理論に基づき、将来の全ての状況を区別できない場合、メカニズムでは解消できない厚生損失が生じることを示した。
- 利他主義的なAIエージェントは、他者の厚生も考慮することで、この厚生損失を埋め、社会的に優れた結果を達成できると実験で示した。
Abstract
Ensuring that AI agents behave safely and beneficially when interacting with other parties has emerged as one of the central challenges of modern AI safety. While mechanism design, as the theory of designing rules to align individual and collective objectives, can incentivize cooperative behavior, it is still an open question whether it alone is sufficient to maximize LLM agents' social welfare. This work proves that the answer is negative: drawing from incomplete contract theory, we formally show that when contracts cannot distinguish all relevant future contingencies, there is a strictly positive welfare loss that no realistic mechanism can eliminate. We show that prosocial agents, who weigh others' welfare alongside their own, can close this gap and achieve outcomes that are socially superior and individually beneficial. Experimentally, we show that in multi-agent resource-allocation environments and canonical social dilemmas where agents are powered by large language models, prosociality is beneficial. The implication for AI safety is clear: to enable cooperative interactions at scale, designing adequate mechanisms is not sufficient; agents must be built to be intrinsically prosocial.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: