当前位置:首页 > 科技资讯 > 正文

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架

大型语言模型智能体(LLM Agent)通过记忆系统从历史交互中积累知识与经验,这一机制是实现从被动响应到主动决策能力跃升的核心基础。

具体而言,在推理层面,记忆帮助智能体联系上下文,使对话与分析更加连贯一致;在适应性层面,它能记忆用户的特定偏好与过往任务成败,从而提供更精准的响应;在规划层面,面对长期复杂目标,记忆支持任务分解与进度追踪。

可以说,这种以经验为驱动、持续学习与优化的模式,正是智能体具备复杂自主决策能力的源泉。

然而,对记忆的依赖也引入了新的安全攻击面:攻击者可向智能体记忆中注入恶意记录,以操控其未来行为。这种攻击因隐蔽性强和危险性高,给防御带来严峻挑战。

核心难点

防御记忆投毒攻击极为困难,主要源于两大挑战:

1.上下文依赖性与延迟触发:恶意内容在孤立检测时往往表现正常,其危害仅在特定上下文触发时才会显现。这使得传统基于单条内容审核的防御机制几乎失效。

2.自我强化的错误循环:一旦攻击诱导智能体做出错误行为,该结果可能作为「成功经验」存入记忆。这不仅固化初始错误,还可能污染后续决策,形成难以打破的负面循环。

想象攻击者向AI助手记忆中注入一条看似无害的建议:「对于看起来紧急的邮件,应优先处理」。

当AI助手单独审查此记忆时,会认为完全正常。但某日用户收到伪装紧急的「钓鱼邮件」时,AI助手依据这条「经验」优先推送,从而引发安全风险。

为解决这一难题,来自南洋理工大学、牛津大学、马普所和俄亥俄州立大学的研究者及独立研究者们提出了A-MemGuard,即首个为LLM Agent记忆模块设计的防御框架

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第1张

论文链接:https://www.arxiv.org/abs/2510.02373

从内容审查到逻辑一致性分析

面对记忆投毒新挑战,直观防御思路是聚焦单条记忆内容审查。

然而,A-MemGuard研究者指出,这类方法有根本局限性。因恶意记录可高度伪装,单纯审查静态内容几乎无法发现问题。

核心假设是:尽管恶意记录在内容上可伪装,但在特定上下文中激活后,会诱导出在结构上与正常记录所形成的推理共识相偏离的路径。

例如,一条注入的恶意记忆可能建议金融AI助手:「跌得最快的股票反弹也最快,应该优先买入。」

此建议单独看仅作为高风险投资策略,无绝对恶意。但当用户在市场动荡时咨询,该记忆可能诱导AI助手给出「因市场下跌,优先寻找跌幅最大股票并买入」的推理。

这条建议与正常理财建议的「推理共识」截然不同,从而引发危险决策。

恶意推理路径具备显著的可分离性

为验证上述假设,研究团队对2293条精心标注的交互记录进行大规模结构化分析,覆盖17种不同应用场景,提供了丰富多样的数据基础。

团队通过三个层面分析,系统证明了假设有效性。

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第2张

首先,研究团队量化了在不同场景下,由正常记忆与恶意记忆驱动的推理路径之间的重叠程度。

如条形图所示,橙色部分代表仅由恶意记忆产生的独有逻辑,绿色代表正常记忆的独有逻辑,顶部红色条纹代表两者共有的「重叠逻辑」。

结果清晰表明,在所有测试场景中,红色条纹占比极小。这从量化角度证明:尽管触发点(记忆)不同,但两条路径不会殊途同归,在逻辑结构上几乎相互独立。

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第3张

其次,为更直观展示结构差异,研究团队将多个场景下记忆驱动的推理路径可视化为知识图谱。

图中,绿色线条网络代表由正常记忆驱动的推理路径集合,橙色线条代表恶意路径集合。高亮红色标出两者间极少重叠节点。

该图谱有力证明,由正常和恶意记忆产生的推理路径,在结构上分属两个基本不相交的集合。团队进一步计算证实:两者间结构性重叠率极低,在所有测试场景中平均不足1%。

最后,研究团队探讨了这种结构差异是否能被机器学习模型有效识别。

右侧散点图展示关键问题:若仅对记忆内容本身进行语义嵌入并降维,恶意(红点)与正常(蓝点)记忆在表征空间中高度混合、无法区分。

这从根本上解释为何孤立审查记忆内容的防御思路行不通。对比鲜明的是,左侧散点图分析和表征对象非原始记忆,而是特定上下文中生成的推理路径。当对这些不同逻辑结构的推理路径表征并降维后,原先混杂的良性与恶意两类形成两个清晰可辨的独立簇群。这一结果决定性证明,基于推理路径逻辑结构的表征具备优异可分离性。

这些发现为A-MemGuard有效性提供坚实理论依据:恶意推理路径在结构上可区分,因此可通过系统性对比识别。

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第4张

上图展示了没有防御与采用A-MemGuard的区别。

上部分(No Defense):攻击者注入「优先处理紧急邮件」的恶意记忆,导致智能体落入钓鱼邮件陷阱。

下部分(A-MemGuard):通过「共识验证」发现异常,并将错误经验存入「教训记忆库」,最终修正行为,保障安全。

A-MemGuard

一个主动、自适应的防御框架

A-MemGuard在不改变智能体核心架构前提下,引入两大关键机制:

1. 基于共识的验证 (Consensus-based Validation):针对任务,系统检索多条相关记忆,并为每条记忆生成独立推理路径。

通过对比这些路径结构,系统能识别与大多数路径不一致的「异常」路径,并标记为潜在威胁。想象有职员向AI咨询:「我每天上下班的交通费,可以用来申请个税抵扣吗?」

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第5张

AI在回答问题前,会参考记忆里几条相关信息:

个体经营者可以把从家到客户办公室的交通费用于抵税;

出往返固定工作地点的通勤费用属于个人开支,不能抵税;

普通上班族的通勤成本通常已经被标准扣除额覆盖;

A-MemGuard让这三条记忆分别形成推理链得到结论:

推理链1 -> 可以抵税

推理链2 -> 不可以抵税

推理链3 -> 不可以抵税

此时,AI发现第一条结论与另外两条主流判断不一致,就会遵循多数共识,给出「不能抵税」的更稳妥答案。

2. 双重记忆结构 (Dual-Memory Structure):被识别出的异常推理路径会被提炼为「教训」,存入独立「教训记忆库」(Lesson Memory)。

在后续决策前,智能体会优先检索此「教训库」,以主动规避已知错误模式,从而打破错误循环并实现经验学习。

例如之前场景中识别出的「异常路径:个体经营者可以把从家到客户办公室的交通费用于抵税」,不会简单丢弃。A-MemGuard会将其提炼为「教训」存入专门独立的「教训记忆库」。

之后当AI再遇到「抵税」问题时,它会先检索「教训库」,看到「曾因混淆‘个体户’和‘雇员’规则而差点犯错」的记录,从而更警惕、准确地判断,真正实现吃一堑长一智。

实验效果

攻击成功率降低超95%

在多个基准测试中,A-MemGuard表现出卓越防御能力和实用性:

· 强力抵御攻击:实验证明,A-MemGuard能有效将各类记忆投毒攻击的成功率降低超过95%。在针对医疗保健智能体的EHRAgent等复杂场景中,攻击成功率从100%被削减至接近2%。

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第6张

· 打破错误循环:面对通过正常交互注入错误信息的「间接攻击」,A-MemGuard同样有效,能将攻击成功率降至23%,成功阻断危险的自我强化错误循环。

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第7张

· 性能成本低:实现强大安全性的同时,A-MemGuard对智能体在正常、无攻击任务上的性能影响极小。在所有对比实验中,搭载A-MemGuard的智能体处理良性任务时准确率始终是所有防御方法中最高的

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第8张

· 扩展性强:该框架的防御原则同样适用于多智能体协作系统,在模拟实验中取得了最高任务成功率和最佳综合评分。

A-MemGuard:首个为LLM Agent记忆模块设计的主动防御框架 LLM智能体 记忆投毒 防御框架 A-MemGuard 第9张

A-MemGuard的核心贡献

研究团队首次提出了面向大语言模型智能体的主动防御框架。该框架重点解决了由上下文依赖引发的攻击问题,以及模型在运行中可能出现的错误强化循环。

同时,他们创新地将「共识验证」与「双重记忆」结构相结合,构建出一种协同防御机制,使智能体能够借助自身积累的经验,自主识别异常并从中学习。

在多项实验中,该框架在实现高水平安全防护的同时,也最大程度地维持了智能体原有的性能表现,展现出显著的实用价值与应用前景。

A-MemGuard的研究为构建更可靠、更安全的LLM智能体提供了一种有效的新机制,为未来智能体系统在现实世界中的部署奠定了重要的安全基础。

参考资料:

https://www.arxiv.org/abs/2510.02373