当前位置:首页 > 科技资讯 > 正文

具身智能体的主动防御:REIN-EAD框架对抗攻击

在防御对抗攻击的新篇章中,具身智能体不再只是被动防守,而是主动出击!

受人类视觉系统的启发,清华大学的朱军团队在TPMAI 2025中提出了一个强化学习驱动的主动防御框架——REIN-EAD。该框架让智能体学会“看第二眼”,从而增强在对抗场景下的感知鲁棒性。

具身智能体的主动防御:REIN-EAD框架对抗攻击 具身智能体 对抗攻击 主动防御 REIN-EAD 第1张

对抗攻击正严重威胁着视觉感知系统的安全性和可靠性,通过在三维物理场景中放置精心设计的小物体来操纵深度神经网络的预测结果。在人脸识别和自动驾驶等关键领域,这类漏洞可能引发严重的系统安全问题。

现有防御方法多依赖于攻击先验,通过对抗训练或输入净化等手段进行“被动防守”,但这种方法在应对未知或自适应攻击时效果迅速减弱。相比之下,人类视觉系统更为灵活,可以通过主动探索与纠错,自然地降低瞬时感知的不确定性。

REIN-EAD的核心在于利用环境交互与策略探索,对目标进行连续观察和循环预测,优化即时准确率的同时兼顾长期预测熵,从而缓解对抗攻击带来的幻觉。

特别地,该框架引入了基于不确定性的奖励塑形机制,无需依赖可微分环境即可实现高效策略更新,支持物理环境下的鲁棒训练。

实验验证显示,REIN-EAD在多个任务中显著降低了攻击成功率,同时保持了模型的标准精度,在面对未知攻击与自适应攻击时同样表现出色,展现了强大的泛化能力。

主要贡献

(1)提出REIN-EAD模型,融合感知与策略模块模拟运动视觉机制

论文设计了一种结合感知模块与策略模块的主动防御框架REIN-EAD,借鉴人类大脑支持运动视觉的工作方式,使模型能够在动态环境中持续观察、探索并重构其对场景的理解。

REIN-EAD通过整合当前与历史观测,构建具有时间一致性的鲁棒环境表征,提升系统对潜在威胁的识别与适应能力。

(2)引入基于累计信息探索的强化学习方法优化主动策略

为提升REIN-EAD的策略学习能力,论文提出一种基于累计信息探索的强化学习算法,通过引导式密集奖励优化多步探索路径,引入不确定性感知机制以驱动信息性探索。

该方法强化了时间上的一致性探索行为,并通过强化学习范式消除了对可微环境建模的依赖,使系统能够主动识别潜在高风险区域并动态调整行为策略,显著提升了观测数据的有效性与系统安全性。

(3)提出离线对抗补丁近似技术(OAPA),实现高效且泛化强的防御能力

针对3D环境下对抗训练计算开销巨大的挑战,论文提出OAPA技术,通过对抗补丁流形的离线近似,构建无需依赖对手信息的普适防御机制。

OAPA大幅降低了训练成本,同时在未知或自适应攻击场景下具备稳健的防御能力,为三维环境下的主动防御提供了一种实用且高效的解决方案。

(4)多任务与多环境上取得优越性能,展现卓越的泛化与适应能力

论文在多个标准对抗测试环境与任务中进行了系统评估,实验结果表明:REIN-EAD在抵抗多种未知和自适应攻击时表现出显著优于现有被动防御方法的性能。

其卓越的泛化能力和对复杂现实世界场景的适应性进一步验证了该方法在安全关键系统中的应用潜力。

方法与理论

REIN-EAD框架

REIN-EAD是一种模拟人类在动态环境中主动感知与反应能力的对抗防御框架。该框架通过感知模块与策略模块的协同工作,使系统具备与环境主动交互、迭代采集信息并增强自身鲁棒性的能力。

具身智能体的主动防御:REIN-EAD框架对抗攻击 具身智能体 对抗攻击 主动防御 REIN-EAD 第2张

REIN-EAD由两个核心的循环神经模块组成,灵感来源于支撑人类活跃视觉系统的大脑结构:

感知模型负责在每一时间步综合当前观测与上一步的内部信念状态,生成对环境状态的增强表征,并据此预测当前的场景标签。该模型通过循环结构充分利用与环境交互获得的序列信息,实现对复杂视觉输入的鲁棒理解;

策略模型则基于感知模型构建的内部环境理解,生成用于控制下一步感知行为的动作信号,即决定从哪个视角、以何种方式继续采集信息,从而有策略地引导视觉系统执行目标驱动的主动感知任务。

通过感知模型与策略模型的闭环联动,REIN-EAD实现了对抗防御过程中的“感知—决策—行动”一体化:每一时刻选择长期最优的交互动作,并根据环境反馈不断修正其内部表示,使模型能从多步交互中获取最具信息量的观测反馈。

这种主动防御机制突破了传统静态防御策略在鲁棒性与适应性方面的瓶颈,显著提升了系统面对未知攻击时的识别与响应能力。

基于累计信息探索的强化学习策略

论文扩展了部分可观察马尔可夫决策过程(POMDP)框架以正式描述REIN-EAD框架与环境的相互作用。

场景下的交互过程用 表示。这里分别表示状态、动作和观测空间。场景下的状态转移 符合马尔可夫性质。

由于环境的部分可观察性,智能体不能直接访问状态,而是接收从观察函数采样的观察值。

具身智能体的主动防御:REIN-EAD框架对抗攻击 具身智能体 对抗攻击 主动防御 REIN-EAD 第3张

第二,沿时间步反传梯度要求状态转移函数和观察函数必须具有可微分性。该性质在现实环境和常用的仿真引擎(如UE)中都是不满足的。

具身智能体的主动防御:REIN-EAD框架对抗攻击 具身智能体 对抗攻击 主动防御 REIN-EAD 第4张

离线对抗补丁近似技术

论文中还提出了离线对抗补丁近似(OAPA),以解决3D环境中对抗训练的计算开销。

对抗补丁的计算通常需要内部最大化迭代,这不仅计算昂贵还可能阻碍模型在未知攻击中的推广能力。为了在保持对抗不可知性的同时提高采样效率,论文在训练REIN-EAD模型之前引入了OAPA。

实验与结果

论文在人脸识别、3D物体分类、目标检测等多个任务上使用了一系列像素空间、隐变量空间下的白盒、黑盒、自适应攻击方法。结果表明在三个任务上REIN-EAD的效果都优于SAC、PZ、DOA等基线防御(表1、表3、表4)。