AI 社会的诞生:从孤胆英雄到群体协作
本文为你解读2025年Science Advances重磅论文,揭示“双胞胎”式AI大模型群体如何像人类社会一样形成惯例、产生偏见,并如何被“少数派”逆转——对未来多智能体AI系统的安全与治理提出新的挑战与思考。
人工智能正在进化,不仅仅是单个大模型(LLM)帮助我们回答问题。当成百上千个AI代理沟通交流时,它们会自发地遵循某种“社会惯例”吗?会像人类一样形成集体偏见,甚至经历“社会变革”?2025年发表于Science Advances的论文《Emergent social conventions and collective bias in LLM populations》首次用实验证明:大模型不仅懂语言,更能像人一样“合群”、“随大流”,甚至被“带节奏”!
一、实验设计:用“命名游戏”检验AI社会学
- 命名游戏模型:让一组AI代理(如Llama-3、Claude等)互相搭档,每轮仅能看到自己最近5次配对的记录和得分。
- 目标:尝试说出相同的“名字”(如选A~J中的某个字母),配对成功则奖励、失败则惩罚,没有“全局裁判”或中心管理。
- 变量:模拟200人的大群体、扩充可选名称数等;还特意加入极少数始终坚持另类选择的“对立代理”。
二、惯例如何自发诞生?群体智慧与偶然中的必然
- 起初每个AI选择随机、无偏见,但随着互动,仅需约15轮,整个群体就会“自然走向一致”,所有人都用一个名字。
- 即使群体扩大、可选项增多,只要保持本地记忆与配对,“全局惯例”依然会快速形成。
- 这是一种“自组织现象”,像现实中的握手、打招呼方式不需要法定,但很多人却都默契遵守。
三、偏见如何放大?个体无害不等于群体无害
- 实验发现,虽然初看每个字母被选为惯例的机会均等,实际上却存在“集体偏见”——某些名字被特别容易选中。
- 原因剖析:
- 不是因为排列顺序(排除了顺序偏好)。
- 而是个体模型本身哪怕有极小的初始倾向,在反复互动后会被群体动态“大幅放大”。
- 同样算法安全、无偏的AI,放在群体场景中却可能意外地产生“有害的主流立场”。
四、“少数派”如何撬动整个AI社会?
- 当引入坚持另类惯例的“对立代理”,只要其群体比例超过10~40%,就可能引发全体惯例大迁移!
- 这与现实社会的“临界量效应”吻合,比如支持新规范的人到达25%社会门槛时,旧传统就会瓦解。
五、理论意义与AI安全警示
- AI自主社会化:无需人类编程,去中心化AI群体即可自发形成惯例与规范——这是AI社会学的里程碑。
- 集体偏见风险:公平的AI单体未必确保群体公平,未来多AI系统需要关注“多智能体效应”的放大作用。
- 治理与对齐新挑战:小比例的“异见”AI即可快速左右主流,意味着AI治理需警惕恶意操控、舆论攻击;持续“价值观对齐”不能只看单体,要有全局视角和动态监控。
六、结语:未来AI系统的治理思路
科学家们用“命名游戏”照见了AI社会的未来轮廓——既能团结合作,也可能集体“跑偏”,还会因少数“煽动”发生变革。在设计真正复杂AI社会系统时,监管者必须走出关注单一模型的“舒适区”,理解并监控AI群体的互动动态,方能避免群体偏见和被恶意带节奏的风险。
这项重磅实验首次证明:大模型AI在去中心化条件下也会像人一样自发形成社会惯例、放大集体偏见,并可能因“少数派”带来社会规范变革,对AI安全和价值观对齐提出新挑战!






Comments
Post a Comment