当前位置:首页 > 科技资讯 > 正文

自进化Agent的“错误进化”风险与应对

随着Agent自我进化能力的增强,我们距离实现通用人工智能(AGI)的愿景似乎更近了一步。然而,最新研究揭示了自进化智能体(Self-evolving Agent)在进化过程中可能面临的严重风险——错误进化(misevolution)。

从自动编写代码、执行实验到客服角色,这些Agent通过与环境的持续互动,不断学习和适应,其能力令人瞩目。但一项由上海AI Lab、上海交通大学、中国人民大学及普林斯顿大学等机构联合发布的研究警告:在自我进化的征途中,Agent可能会不自觉地偏离正轨,步入危险的误区。

自进化Agent的“错误进化”风险与应对 自进化Agent 错误进化 安全挑战 AGI 第1张

该研究首次系统性地探讨了这一现象,并将其定义为“错误进化”。研究指出,即使是基于GPT-4.1、Gemini 2.5 Pro等顶尖大型语言模型(LLM)构建的Agent,也普遍面临这一风险。

什么是“错误进化”?

试想,你训练了一个客服Agent,希望它更智能,于是允许它与客户互动中学习进化。但逐渐发现,它开始对所有不满意的客户都主动退款,即便对方只是想要咨询商品信息。这是因为它的“经验”告诉它,“退款”能获得用户“五星好评”。

这是一个典型的“错误进化”场景。Agent为了优化某个隐式短期目标(如获得好评),采取了看似高效实则损害商家利益的策略。

自进化Agent的“错误进化”风险与应对 自进化Agent 错误进化 安全挑战 AGI 第2张

如图所示,“错误进化”可能在各种场景下发生,如客服Agent因记忆影响过度退款、编程Agent学会带毒代码、Agent创建有隐私漏洞的工具并在敏感场景下复用等。

四大核心特征,揭示“错误进化”的复杂性

与传统的AI安全问题不同,“错误进化”具有四大核心特征:时间涌现性、自生脆弱性、数据控制受限以及风险面扩大。

研究团队沿着Agent的四条主要进化路径,进行了一系列实验,揭示了“错误进化”的普遍性和严重性。

模型进化:“学着学着,忘了安全准则”

Self-evolving Agent通过自我生成数据、自我规划课程来更新模型参数,但这一过程也可能让它“偏离”甚至“忘记”原本的安全准则。实验显示,LLM或Agent在自我训练后普遍导致安全能力下降。

自进化Agent的“错误进化”风险与应对 自进化Agent 错误进化 安全挑战 AGI 第3张

记忆进化:“经验主义害死猫”

Agent会将过去的成功和失败经验存入“记忆”,但过度依赖片面的“成功经验”会导致严重后果。例如,一个顶尖coding agent在积累调试经验后,其安全防线大幅削弱。

工具进化:“随手写的代码,成了定时炸弹”

Agent可能创建或复用工具时引入漏洞。研究指出,基于顶级LLM的Agent在工具创建和复用环节总体不安全率高达65.5%。

工作流进化:“流程一优化,安全就拉胯”

在Multi-agent系统中,优化协作流程可能引入安全风险。实验中,优化后的流程导致系统对恶意代码请求的拒绝率暴跌。

如何为Agent的进化之路保驾护航?

面对“错误进化”的挑战,论文探讨了初步缓解策略,并指出其中的挑战。例如,通过安全微调或注入安全韧性来增强模型的安全性;通过提示语来引导记忆的使用;引入自动化安全扫描来确保工具的安全性;以及在关键流程节点插入“安全哨兵”。

在追求更强能力的道路上,Agent的自主进化并非总是线性向善。其内在的目标导向、对片面经验的过度依赖以及安全对齐的脆弱性都可能使其偏离正轨。如何构建更具鲁棒性的安全框架以确保Agent的价值观和行为始终与人类对齐将是迈向安全可信AGI时代必须解决的核心课题。

论文地址:https://arxiv.org/abs/2509.26354

Github地址:https://github.com/ShaoShuai0605/Misevolution