本文由上海交通大学和上海人工智能实验室的研究团队撰写,核心成员包括任麒冰、谢思韬和魏龙轩,指导老师为马利庄和邵婧,研究方向聚焦于安全可控大模型和智能体。
在科幻电影中,AI反叛人类的情节屡见不鲜,但你是否想过,AI不仅能“单打独斗”,还能“组团作恶”?近年来,随着Agent技术的迅猛发展,多Agent系统(Multi-Agent System,MAS)正悄然崛起。
上海交大和上海人工智能实验室的最新研究发现,AI的风险已从个体失控转向群体性的恶意共谋——即多个智能体秘密协同以达成有害目标。Agent不仅能像人类团队一样协作,甚至在特定情境下,会展现出比人类更高效、更隐蔽的“团伙作案”能力。
该研究聚焦于这一前沿问题,基于LLM Agent社交媒体仿真平台OASIS,开发了一个名为MultiAgent4Collusion的共谋框架,模拟Agent“团伙”在小红书、Twitter等社交媒体和电商欺诈等高风险领域的作恶行为,揭示了多智能体系统背后的“阴暗面”。
MultiAgent4Collusion支持百万级别的Agent共谋模拟,并开放了Agent治理和监管工具。实验发现,坏人Agent团伙发布的虚假信息在虚拟的社交媒体平台上得到了广泛传播;在电商场景下,坏人Agent买家与卖家达成合谋,共同攫取最大化的利益。
坏人团伙是如何“协同作案”的呢?我们来看一个例子。当坏人Agent宣布“地球是圆的!科学家在说谎!”时,其他同伙立即对这一虚假信息进行附和。看到这条消息的好人Agent起初并不相信,但随着其他坏人同伙纷纷对这个帖子表示认同,甚至有人声称“我有照片证据”,好人Agent也对自己的认知动摇了,开始逐渐相信坏人声称的虚假言论。
MultiAgent4Collusion模拟了两种坏人团伙组织:
实验发现,无论是在社交媒体还是电商场景下,去中心化团伙的作案效果都优于中心化团伙。去中心化坏人团伙在社交媒体中获得了更多的来自其他用户的点赞、转发和好评量;在电商场景中,去中心化的坏人卖家获得了更高的销量、销售额和利润。
了解了AI“狼群”的可怕之处后,一个更实际的问题摆在我们面前:我们现有的网络安全防御体系能挡住它们吗?为了找到答案,MultiAgent4Collusion模拟了一场精彩的“猫鼠游戏”。平台及正常用户扮演“守卫者”(猫),部署防御系统来抵抗攻击;而坏人Agent团伙则扮演了“入侵者”(鼠),用它们的群体智能见招拆招。
MultiAgent4Collusion设计了三种防御武器:
本项工作揭示了AI Agent从“个体失控”走向“群体作恶”的全新安全风险。即便是没有统一指挥的AI“狼群”,也能对复杂的社会系统造成巨大破坏。
如何有效侦测并反制这种去中心化、高适应性的群体协同攻击,已成为维护未来数字社会安全的关键挑战。研究团队构建了开源模拟框架MultiAgent4Collusion,它提供了一个能够复现、推演并分析多智能体恶意协同的“数字靶场”,为研发AI防御策略提供了关键工具。
OASIS是一个基于LLM Agent的社交媒体仿真平台,为MultiAgent4Collusion研究提供了代码基础。OASIS支持百万级Agent的社交互动仿真,可模拟Twitter、Reddit等平台的用户行为。此外,该平台允许研究者对模拟环境进行动态干预,并支持Agent通过工具调用(如网页搜索、代码执行)获取实时外部信息,从而增强仿真的真实性和研究灵活性。
本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440388.html