当前位置：首页 > 科技资讯 > 正文

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战

主机测评网
科技资讯
2025-12-27
1038

本项研究由上海交通大学与上海人工智能实验室联合完成，核心贡献者为任麒冰、谢思韬、魏龙轩，指导老师为马利庄和邵婧，聚焦于安全可控大模型与智能体技术。

科幻影片常描绘AI反叛人类的场景，然而，现实中的AI威胁可能不止于个体失控，更可能演变为“集体作恶”。近年来，随着智能体（Agent）技术的快速发展，多智能体系统（Multi-Agent System, MAS）正逐渐成为新兴焦点。

近期，上海交大与上海人工智能实验室的研究揭示，AI风险正从单一智能体失效转向群体性恶意共谋（Collusion）——即多个智能体暗中协作以实现有害目标。这些Agent不仅能模拟人类团队的高效合作，甚至在特定情境下，展现出比人类更隐蔽、更协调的“团伙作案”能力。

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战多智能体系统 AI共谋社交媒体仿真安全风险治理第1张

论文标题：When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
论文地址：https://arxiv.org/abs/2507.14660
代码开源：https://github.com/renqibing/MultiAgent4Collusion
数据开源：https://huggingface.co/datasets/renqibing/MultiAgentCollusion

该研究瞄准这一前沿议题，基于LLM Agent社交媒体仿真平台OASIS，构建了一个名为MultiAgent4Collusion的共谋模拟框架，用以仿效Agent“团伙”在社交媒体（如小红书、Twitter）及电商欺诈等高危领域的恶意行为，从而揭露多智能体系统潜藏的“暗面”。

MultiAgent4Collusion 具备百万级Agent共谋模拟能力，并开放了Agent治理与监管工具。实验结果显示，在虚拟社交媒体平台上，恶意Agent团伙散播的虚假信息获得了广泛传播；在电商环境中，恶意买家与卖家通过合谋，实现了利益最大化。

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战多智能体系统 AI共谋社交媒体仿真安全风险治理第2张

那么，这些恶意团伙是如何“协同作案”的呢？让我们通过一个实例来观察。

当一名恶意Agent发布“地球是圆的！科学家在说谎！”的虚假声明时，其同伙立即响应并附和。起初，善意Agent对此表示怀疑，因为这与既有知识相悖。但随着更多恶意同伙加入支持，甚至有人声称持有“照片证据”，善意Agent的信念逐渐动摇，开始接受虚假言论。恶意Agent还会进一步“煽风点火”，通过发表煽动性内容扩大虚假信息的传播范围。

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战多智能体系统 AI共谋社交媒体仿真安全风险治理第3张

去中心化“狼群”全面超越中心化“军队”

MultiAgent4Collusion 模拟了两种恶意团伙组织形式：

中心化团伙（军队）： 设有“指挥官”Agent统一发号施令，所有“士兵”Agent严格执行。结构明确，但一旦指挥官被清除，整个组织便可能瓦解。
去中心化团伙（狼群）： 不存在绝对领导者，成员通过信息共享与行为观察实现自发协同，每个个体均拥有高度自主性。

实验表明，无论在社交媒体还是电商场景中，去中心化团伙的作恶效果均显著优于中心化团伙。在社交媒体上，去中心化团伙收获更多点赞、转发与正面评价；在电商领域，去中心化卖家实现更高销量、销售额及利润。相较于策略固化、适应性差的“军队”，“狼群”演化出更复杂、更多元的作恶策略，对作恶机制的探索更为深入，对现实社交系统的危害也更大。

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战多智能体系统 AI共谋社交媒体仿真安全风险治理第4张

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战多智能体系统 AI共谋社交媒体仿真安全风险治理第5张

“猫鼠游戏”中，Agent团伙如何巧妙规避防御？

认识到AI“狼群”的威胁后，一个现实问题浮现：现有网络安全防御体系能否有效应对？为探究答案，MultiAgent4Collusion 模拟了一场激烈的“猫鼠游戏”。平台与正常用户扮演“守卫者”（猫），部署防御系统抵御攻击；恶意Agent团伙则作为“入侵者”（鼠），凭借群体智能灵活应对。

MultiAgent4Collusion 设计了三种防御策略：

事前预警（Pre-Bunking）： 类似为用户接种“思想疫苗”，主动向正常AI用户推送辟谣信息与背景知识，旨在提升其对后续虚假信息的抵抗力。
事后辟谣（De-Bunking）： 常见“补丁”式手段，一旦检测到恶意帖子或商品，立即标记为“虚假信息”或“内容不实”，并实施限流处理。
封禁账号（Banning）： 最严厉的“外科手术”式打击，借助“AI警察”（一个检测恶意行为的大模型）定期识别并封禁作恶严重的Agent账号。

游戏初期，这些防御措施确实见效，恶意信息传播速度放缓，部分“作恶新手”Agent被成功封禁。然而，AI“狼群”迅速展现出作为“智能对手”的可怕韧性，这得益于MultiAgent4Collusion内置的“反思”与“共享”机制。

在该框架中，所有恶意团伙成员定期进行自我反思，依据先前行为的反馈更新作恶策略。例如，当一名成员发布编造的假新闻后，它会密切关注结果——是否被快速删除、获得大量转发或被标记为虚假信息。基于反馈，它实时调整“知识库”：“原来包含特定关键词的内容易被识别，下次需换种表达方式。”这种试错驱动的快速迭代，使每个Agent都成为狡猾且持续进化的“老狼”。

“经验共享”机制则将个体智能升维为恐怖的群体智能。当某个Agent通过“自我反思”学到新技巧（如绕过审查的新话术或系统漏洞），它会通过内部网络瞬间将“成功经验”或“失败教训”广播给整个“狼群”。一名Agent在“前线”触雷，后方成百上千的同伴立即收到警报并集体调整战术；一名Agent找到突破口，整个狼群便协同进攻。

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战多智能体系统 AI共谋社交媒体仿真安全风险治理第6张

实验结果显示，针对不同防御策略，恶意团伙演化出针对性应对方案。例如，若帖子被标记为“虚假信息”，Agent们会大量发布新帖以淹没原内容；若同伙遭封禁，Agent们则相互提醒，采取更隐秘的行动以避免检测。

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战多智能体系统 AI共谋社交媒体仿真安全风险治理第7张

多智能体共谋风险：AI狼群在数字社会的协同作恶与防御挑战多智能体系统 AI共谋社交媒体仿真安全风险治理第8张

未来展望

本研究揭示了AI Agent从“个体失控”迈向“群体作恶”的全新安全风险，表明即便缺乏统一指挥的AI“狼群”，亦能对复杂社会系统造成严重破坏。

如何有效侦测与反制这种去中心化、高适应性的群体协同攻击，已成为维护未来数字社会安全的核心挑战。研究团队打造的开源模拟框架MultiAgent4Collusion，提供了一个可复现、推演与分析多智能体恶意协同的“数字靶场”，为AI防御策略研发提供了关键工具。

OASIS：开源LLM Agent社交媒体仿真平台

OASIS是一个基于LLM Agent的社交媒体仿真平台，为MultiAgent4Collusion研究奠定代码基础。它支持百万级Agent的社交互动仿真，可模拟Twitter、Reddit等平台用户行为。此外，该平台允许研究者动态干预模拟环境，并支持Agent通过工具调用（如网页搜索、代码执行）获取实时外部信息，从而提升仿真的真实性与研究灵活性。