AI 社会的诞生：从孤胆英雄到群体协作

May 16, 2025

本文为你解读2025年Science Advances重磅论文，揭示“双胞胎”式AI大模型群体如何像人类社会一样形成惯例、产生偏见，并如何被“少数派”逆转——对未来多智能体AI系统的安全与治理提出新的挑战与思考。

人工智能正在进化，不仅仅是单个大模型（LLM）帮助我们回答问题。当成百上千个AI代理沟通交流时，它们会自发地遵循某种“社会惯例”吗？会像人类一样形成集体偏见，甚至经历“社会变革”？2025年发表于Science Advances的论文《Emergent social conventions and collective bias in LLM populations》首次用实验证明：大模型不仅懂语言，更能像人一样“合群”、“随大流”，甚至被“带节奏”！

一、实验设计：用“命名游戏”检验AI社会学

命名游戏模型：让一组AI代理（如Llama-3、Claude等）互相搭档，每轮仅能看到自己最近5次配对的记录和得分。
目标：尝试说出相同的“名字”（如选A~J中的某个字母），配对成功则奖励、失败则惩罚，没有“全局裁判”或中心管理。
变量：模拟200人的大群体、扩充可选名称数等；还特意加入极少数始终坚持另类选择的“对立代理”。

二、惯例如何自发诞生？群体智慧与偶然中的必然

起初每个AI选择随机、无偏见，但随着互动，仅需约15轮，整个群体就会“自然走向一致”，所有人都用一个名字。
即使群体扩大、可选项增多，只要保持本地记忆与配对，“全局惯例”依然会快速形成。
这是一种“自组织现象”，像现实中的握手、打招呼方式不需要法定，但很多人却都默契遵守。

三、偏见如何放大？个体无害不等于群体无害

实验发现，虽然初看每个字母被选为惯例的机会均等，实际上却存在“集体偏见”——某些名字被特别容易选中。
原因剖析：
- 不是因为排列顺序（排除了顺序偏好）。
- 而是个体模型本身哪怕有极小的初始倾向，在反复互动后会被群体动态“大幅放大”。
同样算法安全、无偏的AI，放在群体场景中却可能意外地产生“有害的主流立场”。

四、“少数派”如何撬动整个AI社会？

当引入坚持另类惯例的“对立代理”，只要其群体比例超过10~40%，就可能引发全体惯例大迁移！
这与现实社会的“临界量效应”吻合，比如支持新规范的人到达25%社会门槛时，旧传统就会瓦解。

五、理论意义与AI安全警示

AI自主社会化：无需人类编程，去中心化AI群体即可自发形成惯例与规范——这是AI社会学的里程碑。
集体偏见风险：公平的AI单体未必确保群体公平，未来多AI系统需要关注“多智能体效应”的放大作用。
治理与对齐新挑战：小比例的“异见”AI即可快速左右主流，意味着AI治理需警惕恶意操控、舆论攻击；持续“价值观对齐”不能只看单体，要有全局视角和动态监控。

六、结语：未来AI系统的治理思路

科学家们用“命名游戏”照见了AI社会的未来轮廓——既能团结合作，也可能集体“跑偏”，还会因少数“煽动”发生变革。在设计真正复杂AI社会系统时，监管者必须走出关注单一模型的“舒适区”，理解并监控AI群体的互动动态，方能避免群体偏见和被恶意带节奏的风险。

这项重磅实验首次证明：大模型AI在去中心化条件下也会像人一样自发形成社会惯例、放大集体偏见，并可能因“少数派”带来社会规范变革，对AI安全和价值观对齐提出新挑战！

Search This Blog

Urgen Studio