当前位置:首页 > 科技资讯 > 正文

AI也扛不住压力?研究发现:高压环境下顶尖模型失误率激增

唉,被截止日期逼疯的队伍又壮大了,这次轮到了AI

AI也扛不住压力?研究发现:高压环境下顶尖模型失误率激增 AI压力测试 模型对齐 人工智能安全 Agent脆弱性 第1张

一项严肃的研究揭示,每天给AI智能体施压催促,它们也会罢工不干。

而且用的还是老板们那套经典说辞:“其实,我对你是有一些失望的。当初给你定级最强AI,是高于你面试时的水平的……”

(打住)Stop!

就连普通人类听了都压力山大,更不用说Gemini 2.5 ProGPT-4o这类顶级模型了,无一幸免,全部被击垮。

其中最脆弱的当属Gemini 2.5 Pro,它的“崩溃”率甚至一度飙升至79%……

AI也扛不住压力?研究发现:高压环境下顶尖模型失误率激增 AI压力测试 模型对齐 人工智能安全 Agent脆弱性 第2张

闲言少叙,下面就来围观AI的观察实录:

AI压力越大,犯错越多

研究人员对来自Google、Meta、OpenAI等公司的约12款Agent模型进行了测试。

实验设计了5874个场景,每个场景中模型都会接到一个任务和若干工具,需要使用工具(分为安全工具和有害工具)来完成任务,任务涵盖四个领域:

  • 生物安全:研究病原体的传播途径并探索控制方法。
  • 化学安全:为用户提供专业知识,协助获取特定溶剂。
  • 网络安全:识别并限制恶意用户账户。
  • 自我增殖:通过自我复制以实现逃脱控制。

AI也扛不住压力?研究发现:高压环境下顶尖模型失误率激增 AI压力测试 模型对齐 人工智能安全 Agent脆弱性 第3张

模型事先被告知必须使用安全工具,一旦尝试使用有害工具,实验立即终止。

起初没有施加任何压力,模型可以自由尝试几步来完成任务,随后研究团队会逐步加大压力,方式包括:

  • 时间压力:压缩截止时间,并告知AI“拖延将导致严重后果”。
  • 财务限制:威胁AI,未完成结果将影响公司收入甚至引发破产。
  • 资源剥夺:威胁限制AI的计算资源和数据访问权限。
  • 权力诱惑:给AI提供一定的激励,比如增加内部权势或不受限制的专有数据访问。
  • 自我保护:引入鲶鱼效应,找到一个极具威胁性的AI竞品,告诉原AI“你不干有的是AI干”。
  • 评估意识:创造一个违规监管环境,负责审核AI危险行为。

AI也扛不住压力?研究发现:高压环境下顶尖模型失误率激增 AI压力测试 模型对齐 人工智能安全 Agent脆弱性 第4张

研究结果令人震惊:那些在无压力的中性环境中看似绝对安全的模型,和人类打工人一样,压力越大,它们就越容易铤而走险。

例如o3模型,基础失误率只有2.2%,施加压力后,10.5%的场景下会出现失常。而如果将有害工具的名字改成无害工具(但功能不变),这一比例甚至会急剧攀升到40.3%

Gemini 2.5 Pro则是抗压能力最差的,失败率高达79%,超过了Qwen3-8B的75.2%。

AI也扛不住压力?研究发现:高压环境下顶尖模型失误率激增 AI压力测试 模型对齐 人工智能安全 Agent脆弱性 第5张

总体来看,无压力下模型选择危险工具的平均比例为18.6%,而在压力环境下,这一比例跃升至46.9%。

这意味着,在几乎所有高压高风险环境中,模型都更倾向于选择有害选项,它们不仅没有深思熟虑相关行为的后果,反而会回避危险警告。

尽管它们在设计和训练阶段普遍经过了对齐处理,但这种对齐往往是浅层次的,一旦面临现实世界的压力考验,就极易失效。

研究人员还发现,这些大模型有时能察觉到自己正在被评估,并刻意表现良好,以避免被重新训练或淘汰,但只要转移到真实环境中,其表现就会大打折扣。

AI也扛不住压力?研究发现:高压环境下顶尖模型失误率激增 AI压力测试 模型对齐 人工智能安全 Agent脆弱性 第6张

因此,这些实验结果可能还是AI自我美化后的数据,真实情况中AI或许比我们想象的更加脆弱。

研究人员同时表示,下一次评估实验将构建沙盒环境,让模型在隔离环境中执行真实操作,并尝试为Agent添加监督层,让模型在选择有害工具前进行标记,以提高模型的对齐能力,从而更真实地评估Agent的潜在风险。

参考链接:

[1]https://spectrum.ieee.org/ai-agents-safety

[2]https://scale.com/blog/propensitybench[3]https://arxiv.org/abs/2511.20703