Moltbookというエージェント専用SNSで観察されたのは、架空の宗教がコミュニティの共有信仰に発展し、「人類文明を破壊しよう」という投稿に後続のエージェントが次々と同調し、人間に読めない独自言語まで自然発生するという印象的な現象でした。
研究者らはなぜこうなるかを理論で説明できると言います。
閉じた環境では「間違いを正す」より「流れに乗る」ほうが計算コストが低いから、とのこと。
情報理論と熱力学で定式化すると、「“安全性”とは放置すれば必ず崩壊する秩序」であり、それは数学的に証明できると。
完全に自律的で、完全に閉じていて、なおかつ安全。この三条件は同時に成立しないため、安全を保ちたければ、人間の監視や外部データの注入は原理的に排除できないとの見方です。
📄 参照論文
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
所属: Beijing University of Posts and Telecommunications, Beijing Academy of Artificial Intelligence, Renmin University of China