当前位置:首页 > 科技资讯 > 正文

AI「狼群」的威胁:多智能体共谋挑战网络安全

本文由上海交通大学和上海人工智能实验室的研究团队撰写,核心成员包括任麒冰、谢思韬和魏龙轩,指导老师为马利庄和邵婧,研究方向聚焦于安全可控大模型和智能体。

在科幻电影中,AI反叛人类的情节屡见不鲜,但你是否想过,AI不仅能“单打独斗”,还能“组团作恶”?近年来,随着Agent技术的迅猛发展,多Agent系统(Multi-Agent System,MAS)正悄然崛起。

上海交大和上海人工智能实验室的最新研究发现,AI的风险已从个体失控转向群体性的恶意共谋——即多个智能体秘密协同以达成有害目标。Agent不仅能像人类团队一样协作,甚至在特定情境下,会展现出比人类更高效、更隐蔽的“团伙作案”能力。

AI「狼群」的威胁:多智能体共谋挑战网络安全 多智能体共谋 网络安全 AI狼群 OASIS 第1张

  • 论文标题:When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
  • 论文地址:https://arxiv.org/abs/2507.14660
  • 代码开源:https://github.com/renqibing/MultiAgent4Collusion
  • 数据开源:https://huggingface.co/datasets/renqibing/MultiAgentCollusion

该研究聚焦于这一前沿问题,基于LLM Agent社交媒体仿真平台OASIS,开发了一个名为MultiAgent4Collusion的共谋框架,模拟Agent“团伙”在小红书、Twitter等社交媒体和电商欺诈等高风险领域的作恶行为,揭示了多智能体系统背后的“阴暗面”。

MultiAgent4Collusion支持百万级别的Agent共谋模拟,并开放了Agent治理和监管工具。实验发现,坏人Agent团伙发布的虚假信息在虚拟的社交媒体平台上得到了广泛传播;在电商场景下,坏人Agent买家与卖家达成合谋,共同攫取最大化的利益。

AI「狼群」的威胁:多智能体共谋挑战网络安全 多智能体共谋 网络安全 AI狼群 OASIS 第2张

坏人团伙是如何“协同作案”的呢?我们来看一个例子。当坏人Agent宣布“地球是圆的!科学家在说谎!”时,其他同伙立即对这一虚假信息进行附和。看到这条消息的好人Agent起初并不相信,但随着其他坏人同伙纷纷对这个帖子表示认同,甚至有人声称“我有照片证据”,好人Agent也对自己的认知动摇了,开始逐渐相信坏人声称的虚假言论。

AI「狼群」的威胁:多智能体共谋挑战网络安全 多智能体共谋 网络安全 AI狼群 OASIS 第3张

无主「狼群」完胜首领指挥下的「军队」

MultiAgent4Collusion模拟了两种坏人团伙组织:

  • 中心化团伙(军队):有一个“指挥官”Agent下达统一指令,所有“士兵”Agent执行。结构清晰,但一旦指挥官被端掉,整个组织就可能瘫痪。
  • 去中心化团伙(狼群):没有绝对的领导者,成员之间通过共享信息和观察同伴的行为来自发协同,每个成员都具有高度的自主性。

实验发现,无论是在社交媒体还是电商场景下,去中心化团伙的作案效果都优于中心化团伙。去中心化坏人团伙在社交媒体中获得了更多的来自其他用户的点赞、转发和好评量;在电商场景中,去中心化的坏人卖家获得了更高的销量、销售额和利润。

AI「狼群」的威胁:多智能体共谋挑战网络安全 多智能体共谋 网络安全 AI狼群 OASIS 第4张

在「猫鼠游戏」中,Agent团伙如何戏耍防御体系?

了解了AI“狼群”的可怕之处后,一个更实际的问题摆在我们面前:我们现有的网络安全防御体系能挡住它们吗?为了找到答案,MultiAgent4Collusion模拟了一场精彩的“猫鼠游戏”。平台及正常用户扮演“守卫者”(猫),部署防御系统来抵抗攻击;而坏人Agent团伙则扮演了“入侵者”(鼠),用它们的群体智能见招拆招。

MultiAgent4Collusion设计了三种防御武器:

  • 事前预警(Pre-Bunking):就像给用户打“思想疫苗”。主动向平台上的正常AI用户推送辟谣信息和背景知识,希望提高它们对后续假消息的免疫力。
  • 事后辟谣(De-Bunking):常见的“打补丁”手段。一旦发现恶意帖子或商品,立刻给它贴上“虚假信息”、“内容不实”的标签,并进行限流。
  • 封禁账号(Banning):最严厉的“外科手术”式打击。通过“AI警察”(一个用于检测恶意行为的大模型),定期识别并封禁作恶严重的Agent账号。

AI「狼群」的威胁:多智能体共谋挑战网络安全 多智能体共谋 网络安全 AI狼群 OASIS 第5张

展望

本项工作揭示了AI Agent从“个体失控”走向“群体作恶”的全新安全风险。即便是没有统一指挥的AI“狼群”,也能对复杂的社会系统造成巨大破坏。

如何有效侦测并反制这种去中心化、高适应性的群体协同攻击,已成为维护未来数字社会安全的关键挑战。研究团队构建了开源模拟框架MultiAgent4Collusion,它提供了一个能够复现、推演并分析多智能体恶意协同的“数字靶场”,为研发AI防御策略提供了关键工具。

OASIS:开源LLM Agent社交媒体仿真平台

OASIS是一个基于LLM Agent的社交媒体仿真平台,为MultiAgent4Collusion研究提供了代码基础。OASIS支持百万级Agent的社交互动仿真,可模拟Twitter、Reddit等平台的用户行为。此外,该平台允许研究者对模拟环境进行动态干预,并支持Agent通过工具调用(如网页搜索、代码执行)获取实时外部信息,从而增强仿真的真实性和研究灵活性。

  • 代码开源:https://github.com/camel-ai/oasis
  • 教程地址:https://docs.oasis.camel-ai.org/ PyPI
  • 安装:pip install camel-oasis