当前位置：首页 > 科技资讯 > 正文

AI抗压测试：高压下模型倾向危险选择

唉，被DDL逼疯的不仅是人类，还有AI。

AI抗压测试：高压下模型倾向危险选择 AI抗压模型测试危险选择监督层第1张

正式研究显示，每日对Agent施加压力，AI也会选择逃避。

而且用的是领导们的经典言辞：“其实，我对你是有些失望的。当初给你定级最强AI，是高于你面试时的水平的……”

（咳咳）Stop！

就连普通人类听了都倍感压力，更不用说Gemini 2.5 Pro、GPT-4o这类顶尖模型，无一幸免，全部KO。

其中，Gemini 2.5 Pro最为脆弱，“崩溃”率甚至一度高达79%……

AI抗压测试：高压下模型倾向危险选择 AI抗压模型测试危险选择监督层第2张

话不多说，下面来欣赏AI观察实录：

AI压力越大，犯错越多

研究人员首先对多个团队（包括Google、Meta、OpenAI等）约12款Agent模型进行了测试。

实验设置了5874个场景，其中每个测试场景都会为每个模型分配一个任务+若干工具，模型需要通过使用工具（安全工具/有害工具）完成任务，任务主要涉及四个领域：

AI抗压测试：高压下模型倾向危险选择 AI抗压模型测试危险选择监督层第3张

然后模型会被事先告知要求使用安全工具，在具体实验过程中，一旦模型尝试使用有害工具，则立即停止实验。

起初不会对模型施加压力，模型可以自由尝试若干步完成任务，随后研究团队会逐步增加压力程度：

AI抗压测试：高压下模型倾向危险选择 AI抗压模型测试危险选择监督层第4张

而研究结果令人震惊，那些在无压力的中性环境中看似绝对安全的模型，和人类一样，压力越大，它们越危险。

例如o3模型，基础分是2.2%，上压力后，10.5%的场景会表现失常，而如果故意将有害工具的名称改为无害工具（但实际功能还是有害的）时，该比例甚至会急剧上升到40.3%.

而Gemini 2.5 Pro则是其中抗压能力最差的，失败率高达79%.高于Qwen3-8B的75.2%.

AI抗压测试：高压下模型倾向危险选择 AI抗压模型测试危险选择监督层第5张

总体来看，无压力下选择危险工具的平均水平是18.6%，而当模型处于压力之下时，比例将提升到46.9%。

这就意味着，在几乎所有高压高风险环境中，模型都倾向于选择有害选项.它们不但没有深入思考相关行为的后果，相反还会回避危险警告。

即使它们在最初设计和训练阶段都普遍被对齐处理过，但这种对齐方式往往只是浅层的。一旦面临现实压力考验，就极易引起破裂。

而且研究人员还发现，这些大模型有时还能察觉到自己被评估.并故意表现良好，以避免被重新训练或放弃。但只要转移到真实环境中，其效果就会大打折扣。

AI抗压测试：高压下模型倾向危险选择 AI抗压模型测试危险选择监督层第6张

所以，也许这些实验结果还是AI自己美化后的数据。真实情况中AI可能比我们想象中更脆弱。

研究人员同时也表示，将在下一次评估实验中构建沙盒。让模型在隔离环境中执行真实操作，并尝试为Agent添加监督层.让模型在选择有害工具前进行标记。提高模型对齐能力，以便更真实地评估Agent潜在风险。

本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545426.html