AI 社会的诞生:从孤胆英雄到群体协作
本文为你解读2025年Science Advances重磅论文,揭示“双胞胎”式AI大模型群体如何像人类社会一样形成惯例、产生偏见,并如何被“少数派”逆转——对未来多智能体AI系统的安全与治理提出新的挑战与思考。 人工智能正在进化,不仅仅是单个大模型(LLM)帮助我们回答问题。当成百上千个AI代理沟通交流时,它们会自发地遵循某种“社会惯例”吗?会像人类一样形成集体偏见,甚至经历“社会变革”?2025年发表于Science Advances的论文《Emergent social conventions and collective bias in LLM populations》首次用实验证明:大模型不仅懂语言,更能像人一样“合群”、“随大流”,甚至被“带节奏”! 一、实验设计:用“命名游戏”检验AI社会学 命名游戏模型 :让一组AI代理(如Llama-3、Claude等)互相搭档,每轮仅能看到自己最近5次配对的记录和得分。 目标 :尝试说出相同的“名字”(如选A~J中的某个字母),配对成功则奖励、失败则惩罚,没有“全局裁判”或中心管理。 变量 :模拟200人的大群体、扩充可选名称数等;还特意加入极少数始终坚持另类选择的“对立代理”。 二、惯例如何自发诞生?群体智慧与偶然中的必然 起初每个AI选择随机、无偏见,但随着互动,仅需约15轮,整个群体就会“自然走向一致”,所有人都用一个名字。 即使群体扩大、可选项增多,只要保持本地记忆与配对,“全局惯例”依然会快速形成。 这是一种“自组织现象”,像现实中的握手、打招呼方式不需要法定,但很多人却都默契遵守。 三、偏见如何放大?个体无害不等于群体无害 实验发现,虽然初看每个字母被选为惯例的机会均等,实际上却存在“集体偏见”——某些名字被特别容易选中。 原因剖析 : 不是因为排列顺序(排除了顺序偏好)。 而是个体模型本身哪怕有极小的初始倾向,在反复互动后会被群体动态“大幅放大”。 同样算法安全、无偏的AI,放在群体场景中却可能意外地产生“有害的主流立场”。 四、“少数派”如何撬动整个AI社会? 当引入坚持另类惯例的“对立代理”,只要其群体比例超过10~40%,就可能引发全体惯例大迁移! 这与现实社会的“临界量效应”吻合,比如支持新规范的人到达25%社会门槛时,旧传统就会瓦解。 五、理论意...