当前位置：首页 > 科技资讯 > 正文

AI「狼群」的威胁：多智能体共谋挑战网络安全

主机测评网
科技资讯
2026-04-25
157

本文由上海交通大学和上海人工智能实验室的研究团队撰写，核心成员包括任麒冰、谢思韬和魏龙轩，指导老师为马利庄和邵婧，研究方向聚焦于安全可控大模型和智能体。

在科幻电影中，AI反叛人类的情节屡见不鲜，但你是否想过，AI不仅能“单打独斗”，还能“组团作恶”？近年来，随着Agent技术的迅猛发展，多Agent系统（Multi-Agent System，MAS）正悄然崛起。

上海交大和上海人工智能实验室的最新研究发现，AI的风险已从个体失控转向群体性的恶意共谋——即多个智能体秘密协同以达成有害目标。Agent不仅能像人类团队一样协作，甚至在特定情境下，会展现出比人类更高效、更隐蔽的“团伙作案”能力。

AI「狼群」的威胁：多智能体共谋挑战网络安全多智能体共谋网络安全 AI狼群 OASIS 第1张

论文标题：When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
论文地址：https://arxiv.org/abs/2507.14660
代码开源：https://github.com/renqibing/MultiAgent4Collusion
数据开源：https://huggingface.co/datasets/renqibing/MultiAgentCollusion

该研究聚焦于这一前沿问题，基于LLM Agent社交媒体仿真平台OASIS，开发了一个名为MultiAgent4Collusion的共谋框架，模拟Agent“团伙”在小红书、Twitter等社交媒体和电商欺诈等高风险领域的作恶行为，揭示了多智能体系统背后的“阴暗面”。

MultiAgent4Collusion支持百万级别的Agent共谋模拟，并开放了Agent治理和监管工具。实验发现，坏人Agent团伙发布的虚假信息在虚拟的社交媒体平台上得到了广泛传播；在电商场景下，坏人Agent买家与卖家达成合谋，共同攫取最大化的利益。

AI「狼群」的威胁：多智能体共谋挑战网络安全多智能体共谋网络安全 AI狼群 OASIS 第2张

坏人团伙是如何“协同作案”的呢？我们来看一个例子。当坏人Agent宣布“地球是圆的！科学家在说谎！”时，其他同伙立即对这一虚假信息进行附和。看到这条消息的好人Agent起初并不相信，但随着其他坏人同伙纷纷对这个帖子表示认同，甚至有人声称“我有照片证据”，好人Agent也对自己的认知动摇了，开始逐渐相信坏人声称的虚假言论。

AI「狼群」的威胁：多智能体共谋挑战网络安全多智能体共谋网络安全 AI狼群 OASIS 第3张

无主「狼群」完胜首领指挥下的「军队」

MultiAgent4Collusion模拟了两种坏人团伙组织：

中心化团伙（军队）：有一个“指挥官”Agent下达统一指令，所有“士兵”Agent执行。结构清晰，但一旦指挥官被端掉，整个组织就可能瘫痪。
去中心化团伙（狼群）：没有绝对的领导者，成员之间通过共享信息和观察同伴的行为来自发协同，每个成员都具有高度的自主性。

实验发现，无论是在社交媒体还是电商场景下，去中心化团伙的作案效果都优于中心化团伙。去中心化坏人团伙在社交媒体中获得了更多的来自其他用户的点赞、转发和好评量；在电商场景中，去中心化的坏人卖家获得了更高的销量、销售额和利润。

AI「狼群」的威胁：多智能体共谋挑战网络安全多智能体共谋网络安全 AI狼群 OASIS 第4张

在「猫鼠游戏」中，Agent团伙如何戏耍防御体系？

了解了AI“狼群”的可怕之处后，一个更实际的问题摆在我们面前：我们现有的网络安全防御体系能挡住它们吗？为了找到答案，MultiAgent4Collusion模拟了一场精彩的“猫鼠游戏”。平台及正常用户扮演“守卫者”（猫），部署防御系统来抵抗攻击；而坏人Agent团伙则扮演了“入侵者”（鼠），用它们的群体智能见招拆招。

MultiAgent4Collusion设计了三种防御武器：

事前预警（Pre-Bunking）：就像给用户打“思想疫苗”。主动向平台上的正常AI用户推送辟谣信息和背景知识，希望提高它们对后续假消息的免疫力。
事后辟谣（De-Bunking）：常见的“打补丁”手段。一旦发现恶意帖子或商品，立刻给它贴上“虚假信息”、“内容不实”的标签，并进行限流。
封禁账号（Banning）：最严厉的“外科手术”式打击。通过“AI警察”（一个用于检测恶意行为的大模型），定期识别并封禁作恶严重的Agent账号。

AI「狼群」的威胁：多智能体共谋挑战网络安全多智能体共谋网络安全 AI狼群 OASIS 第5张

展望

本项工作揭示了AI Agent从“个体失控”走向“群体作恶”的全新安全风险。即便是没有统一指挥的AI“狼群”，也能对复杂的社会系统造成巨大破坏。

如何有效侦测并反制这种去中心化、高适应性的群体协同攻击，已成为维护未来数字社会安全的关键挑战。研究团队构建了开源模拟框架MultiAgent4Collusion，它提供了一个能够复现、推演并分析多智能体恶意协同的“数字靶场”，为研发AI防御策略提供了关键工具。

OASIS：开源LLM Agent社交媒体仿真平台

OASIS是一个基于LLM Agent的社交媒体仿真平台，为MultiAgent4Collusion研究提供了代码基础。OASIS支持百万级Agent的社交互动仿真，可模拟Twitter、Reddit等平台的用户行为。此外，该平台允许研究者对模拟环境进行动态干预，并支持Agent通过工具调用（如网页搜索、代码执行）获取实时外部信息，从而增强仿真的真实性和研究灵活性。