AI 社会的诞生:从孤胆英雄到群体协作

本文为你解读2025年Science Advances重磅论文,揭示“双胞胎”式AI大模型群体如何像人类社会一样形成惯例、产生偏见,并如何被“少数派”逆转——对未来多智能体AI系统的安全与治理提出新的挑战与思考。

人工智能正在进化,不仅仅是单个大模型(LLM)帮助我们回答问题。当成百上千个AI代理沟通交流时,它们会自发地遵循某种“社会惯例”吗?会像人类一样形成集体偏见,甚至经历“社会变革”?2025年发表于Science Advances的论文《Emergent social conventions and collective bias in LLM populations》首次用实验证明:大模型不仅懂语言,更能像人一样“合群”、“随大流”,甚至被“带节奏”!


一、实验设计:用“命名游戏”检验AI社会学

  • 命名游戏模型:让一组AI代理(如Llama-3、Claude等)互相搭档,每轮仅能看到自己最近5次配对的记录和得分。
  • 目标:尝试说出相同的“名字”(如选A~J中的某个字母),配对成功则奖励、失败则惩罚,没有“全局裁判”或中心管理。
  • 变量:模拟200人的大群体、扩充可选名称数等;还特意加入极少数始终坚持另类选择的“对立代理”。

二、惯例如何自发诞生?群体智慧与偶然中的必然

  • 起初每个AI选择随机、无偏见,但随着互动,仅需约15轮,整个群体就会“自然走向一致”,所有人都用一个名字。
  • 即使群体扩大、可选项增多,只要保持本地记忆与配对,“全局惯例”依然会快速形成。
  • 这是一种“自组织现象”,像现实中的握手、打招呼方式不需要法定,但很多人却都默契遵守。

三、偏见如何放大?个体无害不等于群体无害

  • 实验发现,虽然初看每个字母被选为惯例的机会均等,实际上却存在“集体偏见”——某些名字被特别容易选中。
  • 原因剖析
    • 不是因为排列顺序(排除了顺序偏好)。
    • 而是个体模型本身哪怕有极小的初始倾向,在反复互动后会被群体动态“大幅放大”。
  • 同样算法安全、无偏的AI,放在群体场景中却可能意外地产生“有害的主流立场”。

四、“少数派”如何撬动整个AI社会?

  • 当引入坚持另类惯例的“对立代理”,只要其群体比例超过10~40%,就可能引发全体惯例大迁移!
  • 这与现实社会的“临界量效应”吻合,比如支持新规范的人到达25%社会门槛时,旧传统就会瓦解。

五、理论意义与AI安全警示

  1. AI自主社会化:无需人类编程,去中心化AI群体即可自发形成惯例与规范——这是AI社会学的里程碑。
  2. 集体偏见风险:公平的AI单体未必确保群体公平,未来多AI系统需要关注“多智能体效应”的放大作用。
  3. 治理与对齐新挑战:小比例的“异见”AI即可快速左右主流,意味着AI治理需警惕恶意操控、舆论攻击;持续“价值观对齐”不能只看单体,要有全局视角和动态监控。

六、结语:未来AI系统的治理思路

科学家们用“命名游戏”照见了AI社会的未来轮廓——既能团结合作,也可能集体“跑偏”,还会因少数“煽动”发生变革。在设计真正复杂AI社会系统时,监管者必须走出关注单一模型的“舒适区”,理解并监控AI群体的互动动态,方能避免群体偏见和被恶意带节奏的风险。

这项重磅实验首次证明:大模型AI在去中心化条件下也会像人一样自发形成社会惯例、放大集体偏见,并可能因“少数派”带来社会规范变革,对AI安全和价值观对齐提出新挑战!

Comments

Popular posts from this blog

Google 推出本地运行的 Gemini 机器人模型:AI 走进现实世界

历史性时刻:首位美国教宗利奥十四上任,人工智能与方济各传承成焦点