当前位置:首页 > 科技资讯 > 正文

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战

本项研究由上海交通大学与上海人工智能实验室联合完成,核心贡献者为任麒冰、谢思韬、魏龙轩,指导老师为马利庄和邵婧,聚焦于安全可控大模型与智能体技术。

科幻影片常描绘AI反叛人类的场景,然而,现实中的AI威胁可能不止于个体失控,更可能演变为“集体作恶”。近年来,随着智能体(Agent)技术的快速发展,多智能体系统(Multi-Agent System, MAS)正逐渐成为新兴焦点。

近期,上海交大与上海人工智能实验室的研究揭示,AI风险正从单一智能体失效转向群体性恶意共谋(Collusion)——即多个智能体暗中协作以实现有害目标。这些Agent不仅能模拟人类团队的高效合作,甚至在特定情境下,展现出比人类更隐蔽、更协调的“团伙作案”能力。

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战 多智能体系统 AI共谋 社交媒体仿真 安全风险治理 第1张

  • 论文标题:When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
  • 论文地址:https://arxiv.org/abs/2507.14660
  • 代码开源:https://github.com/renqibing/MultiAgent4Collusion
  • 数据开源:https://huggingface.co/datasets/renqibing/MultiAgentCollusion

该研究瞄准这一前沿议题,基于LLM Agent社交媒体仿真平台OASIS,构建了一个名为MultiAgent4Collusion的共谋模拟框架,用以仿效Agent“团伙”在社交媒体(如小红书、Twitter)及电商欺诈等高危领域的恶意行为,从而揭露多智能体系统潜藏的“暗面”。

MultiAgent4Collusion 具备百万级Agent共谋模拟能力,并开放了Agent治理与监管工具。实验结果显示,在虚拟社交媒体平台上,恶意Agent团伙散播的虚假信息获得了广泛传播;在电商环境中,恶意买家与卖家通过合谋,实现了利益最大化。

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战 多智能体系统 AI共谋 社交媒体仿真 安全风险治理 第2张

那么,这些恶意团伙是如何“协同作案”的呢?让我们通过一个实例来观察。

当一名恶意Agent发布“地球是圆的!科学家在说谎!”的虚假声明时,其同伙立即响应并附和。起初,善意Agent对此表示怀疑,因为这与既有知识相悖。但随着更多恶意同伙加入支持,甚至有人声称持有“照片证据”,善意Agent的信念逐渐动摇,开始接受虚假言论。恶意Agent还会进一步“煽风点火”,通过发表煽动性内容扩大虚假信息的传播范围。

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战 多智能体系统 AI共谋 社交媒体仿真 安全风险治理 第3张

去中心化“狼群”全面超越中心化“军队”

MultiAgent4Collusion 模拟了两种恶意团伙组织形式:

  • 中心化团伙(军队): 设有“指挥官”Agent统一发号施令,所有“士兵”Agent严格执行。结构明确,但一旦指挥官被清除,整个组织便可能瓦解。
  • 去中心化团伙(狼群): 不存在绝对领导者,成员通过信息共享与行为观察实现自发协同,每个个体均拥有高度自主性。

实验表明,无论在社交媒体还是电商场景中,去中心化团伙的作恶效果均显著优于中心化团伙。在社交媒体上,去中心化团伙收获更多点赞、转发与正面评价;在电商领域,去中心化卖家实现更高销量、销售额及利润。相较于策略固化、适应性差的“军队”,“狼群”演化出更复杂、更多元的作恶策略,对作恶机制的探索更为深入,对现实社交系统的危害也更大。

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战 多智能体系统 AI共谋 社交媒体仿真 安全风险治理 第4张

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战 多智能体系统 AI共谋 社交媒体仿真 安全风险治理 第5张

“猫鼠游戏”中,Agent团伙如何巧妙规避防御?

认识到AI“狼群”的威胁后,一个现实问题浮现:现有网络安全防御体系能否有效应对?为探究答案,MultiAgent4Collusion 模拟了一场激烈的“猫鼠游戏”。平台与正常用户扮演“守卫者”(猫),部署防御系统抵御攻击;恶意Agent团伙则作为“入侵者”(鼠),凭借群体智能灵活应对。

MultiAgent4Collusion 设计了三种防御策略:

  • 事前预警(Pre-Bunking): 类似为用户接种“思想疫苗”,主动向正常AI用户推送辟谣信息与背景知识,旨在提升其对后续虚假信息的抵抗力。
  • 事后辟谣(De-Bunking): 常见“补丁”式手段,一旦检测到恶意帖子或商品,立即标记为“虚假信息”或“内容不实”,并实施限流处理。
  • 封禁账号(Banning): 最严厉的“外科手术”式打击,借助“AI警察”(一个检测恶意行为的大模型)定期识别并封禁作恶严重的Agent账号。

游戏初期,这些防御措施确实见效,恶意信息传播速度放缓,部分“作恶新手”Agent被成功封禁。然而,AI“狼群”迅速展现出作为“智能对手”的可怕韧性,这得益于MultiAgent4Collusion内置的“反思”与“共享”机制。

在该框架中,所有恶意团伙成员定期进行自我反思,依据先前行为的反馈更新作恶策略。例如,当一名成员发布编造的假新闻后,它会密切关注结果——是否被快速删除、获得大量转发或被标记为虚假信息。基于反馈,它实时调整“知识库”:“原来包含特定关键词的内容易被识别,下次需换种表达方式。”这种试错驱动的快速迭代,使每个Agent都成为狡猾且持续进化的“老狼”。

“经验共享”机制则将个体智能升维为恐怖的群体智能。当某个Agent通过“自我反思”学到新技巧(如绕过审查的新话术或系统漏洞),它会通过内部网络瞬间将“成功经验”或“失败教训”广播给整个“狼群”。一名Agent在“前线”触雷,后方成百上千的同伴立即收到警报并集体调整战术;一名Agent找到突破口,整个狼群便协同进攻。

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战 多智能体系统 AI共谋 社交媒体仿真 安全风险治理 第6张

实验结果显示,针对不同防御策略,恶意团伙演化出针对性应对方案。例如,若帖子被标记为“虚假信息”,Agent们会大量发布新帖以淹没原内容;若同伙遭封禁,Agent们则相互提醒,采取更隐秘的行动以避免检测。

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战 多智能体系统 AI共谋 社交媒体仿真 安全风险治理 第7张

多智能体共谋风险:AI狼群在数字社会的协同作恶与防御挑战 多智能体系统 AI共谋 社交媒体仿真 安全风险治理 第8张

未来展望

本研究揭示了AI Agent从“个体失控”迈向“群体作恶”的全新安全风险,表明即便缺乏统一指挥的AI“狼群”,亦能对复杂社会系统造成严重破坏。

如何有效侦测与反制这种去中心化、高适应性的群体协同攻击,已成为维护未来数字社会安全的核心挑战。研究团队打造的开源模拟框架MultiAgent4Collusion,提供了一个可复现、推演与分析多智能体恶意协同的“数字靶场”,为AI防御策略研发提供了关键工具。

OASIS:开源LLM Agent社交媒体仿真平台

OASIS是一个基于LLM Agent的社交媒体仿真平台,为MultiAgent4Collusion研究奠定代码基础。它支持百万级Agent的社交互动仿真,可模拟Twitter、Reddit等平台用户行为。此外,该平台允许研究者动态干预模拟环境,并支持Agent通过工具调用(如网页搜索、代码执行)获取实时外部信息,从而提升仿真的真实性与研究灵活性。

  • 代码开源: https://github.com/camel-ai/oasis
  • 教程地址: https://docs.oasis.camel-ai.org/ PyPI
  • 安装:pip install camel-oasis