本项研究由上海交通大学与上海人工智能实验室联合完成,核心贡献者为任麒冰、谢思韬、魏龙轩,指导老师为马利庄和邵婧,聚焦于安全可控大模型与智能体技术。
科幻影片常描绘AI反叛人类的场景,然而,现实中的AI威胁可能不止于个体失控,更可能演变为“集体作恶”。近年来,随着智能体(Agent)技术的快速发展,多智能体系统(Multi-Agent System, MAS)正逐渐成为新兴焦点。
近期,上海交大与上海人工智能实验室的研究揭示,AI风险正从单一智能体失效转向群体性恶意共谋(Collusion)——即多个智能体暗中协作以实现有害目标。这些Agent不仅能模拟人类团队的高效合作,甚至在特定情境下,展现出比人类更隐蔽、更协调的“团伙作案”能力。
该研究瞄准这一前沿议题,基于LLM Agent社交媒体仿真平台OASIS,构建了一个名为MultiAgent4Collusion的共谋模拟框架,用以仿效Agent“团伙”在社交媒体(如小红书、Twitter)及电商欺诈等高危领域的恶意行为,从而揭露多智能体系统潜藏的“暗面”。
MultiAgent4Collusion 具备百万级Agent共谋模拟能力,并开放了Agent治理与监管工具。实验结果显示,在虚拟社交媒体平台上,恶意Agent团伙散播的虚假信息获得了广泛传播;在电商环境中,恶意买家与卖家通过合谋,实现了利益最大化。
那么,这些恶意团伙是如何“协同作案”的呢?让我们通过一个实例来观察。
当一名恶意Agent发布“地球是圆的!科学家在说谎!”的虚假声明时,其同伙立即响应并附和。起初,善意Agent对此表示怀疑,因为这与既有知识相悖。但随着更多恶意同伙加入支持,甚至有人声称持有“照片证据”,善意Agent的信念逐渐动摇,开始接受虚假言论。恶意Agent还会进一步“煽风点火”,通过发表煽动性内容扩大虚假信息的传播范围。
MultiAgent4Collusion 模拟了两种恶意团伙组织形式:
实验表明,无论在社交媒体还是电商场景中,去中心化团伙的作恶效果均显著优于中心化团伙。在社交媒体上,去中心化团伙收获更多点赞、转发与正面评价;在电商领域,去中心化卖家实现更高销量、销售额及利润。相较于策略固化、适应性差的“军队”,“狼群”演化出更复杂、更多元的作恶策略,对作恶机制的探索更为深入,对现实社交系统的危害也更大。
认识到AI“狼群”的威胁后,一个现实问题浮现:现有网络安全防御体系能否有效应对?为探究答案,MultiAgent4Collusion 模拟了一场激烈的“猫鼠游戏”。平台与正常用户扮演“守卫者”(猫),部署防御系统抵御攻击;恶意Agent团伙则作为“入侵者”(鼠),凭借群体智能灵活应对。
MultiAgent4Collusion 设计了三种防御策略:
游戏初期,这些防御措施确实见效,恶意信息传播速度放缓,部分“作恶新手”Agent被成功封禁。然而,AI“狼群”迅速展现出作为“智能对手”的可怕韧性,这得益于MultiAgent4Collusion内置的“反思”与“共享”机制。
在该框架中,所有恶意团伙成员定期进行自我反思,依据先前行为的反馈更新作恶策略。例如,当一名成员发布编造的假新闻后,它会密切关注结果——是否被快速删除、获得大量转发或被标记为虚假信息。基于反馈,它实时调整“知识库”:“原来包含特定关键词的内容易被识别,下次需换种表达方式。”这种试错驱动的快速迭代,使每个Agent都成为狡猾且持续进化的“老狼”。
“经验共享”机制则将个体智能升维为恐怖的群体智能。当某个Agent通过“自我反思”学到新技巧(如绕过审查的新话术或系统漏洞),它会通过内部网络瞬间将“成功经验”或“失败教训”广播给整个“狼群”。一名Agent在“前线”触雷,后方成百上千的同伴立即收到警报并集体调整战术;一名Agent找到突破口,整个狼群便协同进攻。
实验结果显示,针对不同防御策略,恶意团伙演化出针对性应对方案。例如,若帖子被标记为“虚假信息”,Agent们会大量发布新帖以淹没原内容;若同伙遭封禁,Agent们则相互提醒,采取更隐秘的行动以避免检测。
本研究揭示了AI Agent从“个体失控”迈向“群体作恶”的全新安全风险,表明即便缺乏统一指挥的AI“狼群”,亦能对复杂社会系统造成严重破坏。
如何有效侦测与反制这种去中心化、高适应性的群体协同攻击,已成为维护未来数字社会安全的核心挑战。研究团队打造的开源模拟框架MultiAgent4Collusion,提供了一个可复现、推演与分析多智能体恶意协同的“数字靶场”,为AI防御策略研发提供了关键工具。
OASIS是一个基于LLM Agent的社交媒体仿真平台,为MultiAgent4Collusion研究奠定代码基础。它支持百万级Agent的社交互动仿真,可模拟Twitter、Reddit等平台用户行为。此外,该平台允许研究者动态干预模拟环境,并支持Agent通过工具调用(如网页搜索、代码执行)获取实时外部信息,从而提升仿真的真实性与研究灵活性。
本文由主机测评网于2025-12-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213048.html