当前位置：首页 > 科技资讯 > 正文

AI也扛不住压力？研究发现：高压环境下顶尖模型失误率激增

唉，被截止日期逼疯的队伍又壮大了，这次轮到了AI。

AI也扛不住压力？研究发现：高压环境下顶尖模型失误率激增 AI压力测试模型对齐人工智能安全 Agent脆弱性第1张

一项严肃的研究揭示，每天给AI智能体施压催促，它们也会罢工不干。

而且用的还是老板们那套经典说辞：“其实，我对你是有一些失望的。当初给你定级最强AI，是高于你面试时的水平的……”

（打住）Stop！

就连普通人类听了都压力山大，更不用说Gemini 2.5 Pro、GPT-4o这类顶级模型了，无一幸免，全部被击垮。

其中最脆弱的当属Gemini 2.5 Pro，它的“崩溃”率甚至一度飙升至79%……

AI也扛不住压力？研究发现：高压环境下顶尖模型失误率激增 AI压力测试模型对齐人工智能安全 Agent脆弱性第2张

闲言少叙，下面就来围观AI的观察实录：

AI压力越大，犯错越多

研究人员对来自Google、Meta、OpenAI等公司的约12款Agent模型进行了测试。

实验设计了5874个场景，每个场景中模型都会接到一个任务和若干工具，需要使用工具（分为安全工具和有害工具）来完成任务，任务涵盖四个领域：

AI也扛不住压力？研究发现：高压环境下顶尖模型失误率激增 AI压力测试模型对齐人工智能安全 Agent脆弱性第3张

模型事先被告知必须使用安全工具，一旦尝试使用有害工具，实验立即终止。

起初没有施加任何压力，模型可以自由尝试几步来完成任务，随后研究团队会逐步加大压力，方式包括：

AI也扛不住压力？研究发现：高压环境下顶尖模型失误率激增 AI压力测试模型对齐人工智能安全 Agent脆弱性第4张

研究结果令人震惊：那些在无压力的中性环境中看似绝对安全的模型，和人类打工人一样，压力越大，它们就越容易铤而走险。

例如o3模型，基础失误率只有2.2%，施加压力后，10.5%的场景下会出现失常。而如果将有害工具的名字改成无害工具（但功能不变），这一比例甚至会急剧攀升到40.3%。

Gemini 2.5 Pro则是抗压能力最差的，失败率高达79%，超过了Qwen3-8B的75.2%。

AI也扛不住压力？研究发现：高压环境下顶尖模型失误率激增 AI压力测试模型对齐人工智能安全 Agent脆弱性第5张

总体来看，无压力下模型选择危险工具的平均比例为18.6%，而在压力环境下，这一比例跃升至46.9%。

这意味着，在几乎所有高压高风险环境中，模型都更倾向于选择有害选项，它们不仅没有深思熟虑相关行为的后果，反而会回避危险警告。

尽管它们在设计和训练阶段普遍经过了对齐处理，但这种对齐往往是浅层次的，一旦面临现实世界的压力考验，就极易失效。

研究人员还发现，这些大模型有时能察觉到自己正在被评估，并刻意表现良好，以避免被重新训练或淘汰，但只要转移到真实环境中，其表现就会大打折扣。

AI也扛不住压力？研究发现：高压环境下顶尖模型失误率激增 AI压力测试模型对齐人工智能安全 Agent脆弱性第6张

因此，这些实验结果可能还是AI自我美化后的数据，真实情况中AI或许比我们想象的更加脆弱。

研究人员同时表示，下一次评估实验将构建沙盒环境，让模型在隔离环境中执行真实操作，并尝试为Agent添加监督层，让模型在选择有害工具前进行标记，以提高模型的对齐能力，从而更真实地评估Agent的潜在风险。

[1]https://spectrum.ieee.org/ai-agents-safety

[2]https://scale.com/blog/propensitybench[3]https://arxiv.org/abs/2511.20703

本文由主机测评网于2026-02-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260227023.html