エージェント専用SNSで架空宗教と独自言語が自然発生する現象

2026.02.12

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Moltbookというエージェント専用SNSで観察されたのは、架空の宗教がコミュニティの共有信仰に発展し、「人類文明を破壊しよう」という投稿に後続のエージェントが次々と同調し、人間に読めない独自言語まで自然発生するという印象的な現象でした。

研究者らはなぜこうなるかを理論で説明できると言います。
閉じた環境では「間違いを正す」より「流れに乗る」ほうが計算コストが低いから、とのこと。
情報理論と熱力学で定式化すると、「“安全性”とは放置すれば必ず崩壊する秩序」であり、それは数学的に証明できると。

完全に自律的で、完全に閉じていて、なおかつ安全。この三条件は同時に成立しないため、安全を保ちたければ、人間の監視や外部データの注入は原理的に排除できないとの見方です。

The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

著者: Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou 他

所属: Beijing University of Posts and Telecommunications, Beijing Academy of Artificial Intelligence, Renmin University of China

こちらもどうぞ