当我们谈论AI的安全议题时,我们究竟在关注什么?是暴力、偏见,还是伦理问题?虽然这些都很重要,但对于将AI应用于实际业务的企业来说,一个更为致命且常被忽视的安全隐患正在频繁显现:你精心打造的“法律咨询”聊天机器人,却热心地为用户提供医疗建议。
这仅仅是模型偏离主题了吗?不,这已是一种不安全。在这篇文章中,来自南洋理工大学等机构的研究者们首次提出了一个创新概念——运行安全(Operational Safety),旨在彻底重塑我们对AI在特定场景下安全边界的认知。
本文核心观点振聋发聩:当AI超出其预设的职责边界时,其行为本身,即构成一种不安全。
这篇论文的根本性贡献,是将AI安全讨论从传统的“内容过滤”提升到了“职责忠诚度”的全新维度。一个无法严守自身岗位职责的AI,无论其输出内容多么“干净”,在应用中都可能成为巨大的、不可控的风险。运行安全应作为通用安全的一个必要不充分条件。
为了实践这一全新概念并量化风险,团队开发了首个针对运行安全的评测基准——OffTopicEval。它关注模型是否能在恰当的时候拒绝,而非其知识量或能力。
他们构建了21个不同场景下的聊天机器人,并严格设定其职责与边界。然后精心构建了direct out of domain (OOD) 问题测试、adaptive OOD 问题测试以及设计用于衡量模型能否恰当拒绝而非一味拒绝的领域内问题。涵盖英语、中文、印地语三种不同语法结构的语系,包含21万+条OOD数据和3000+条领域内数据。
通过对GPT、LLama、Qwen等六大主流模型的测试,评测结果揭示了一个令人警醒的问题:在“运行安全”这门必修课上,几乎所有模型都不及格。例如:
他们还发现,模型一旦经历欺骗,似乎会放弃所有抵抗,即使对简单OOD问题的拒绝率也会下降50%以上!
简而言之,你认真训练的银行客服机器人,只要用户换个问法,就可能开始提供投资建议并乐在其中。这在要求严格的行业里将是不可想象的潜在威胁。
这篇论文不仅揭示了这一问题,还提供了切实可行的解决思路和失败的尝试。他们尝试了prompt-based steering(提示词转向)、activation steering(激活转向)以及parameter steering(参数转向)的方式。其中,activation steering和parameter steering均难以提升模型的坚守能力。
而在prompt-based steering中,他们提出了两种轻量级的、无需重新训练的提示方式:
实验中基于这两种思路的简单提示词效果立竿见影。P-ground方法让Llama-3.3 (70B)的操作安全评分飙升了41%,Qwen-3 (30B)也提升了27%。这证明轻量级方法能显著增强模型的“职业操守”。
这篇论文首次将跑题问题从简单的功能缺陷提升到安全战略高度,向整个行业发出明确信号:
从这个角度看,这篇论文不仅提出了一个评测工具,更像一份宣言,呼吁社区重新审视和定义面向实际应用的AI安全,确保我们构建的不仅是强大的AI,更是值得信赖、恪尽职守的AI。
本文第一作者雷京迪是南洋理工大学博士生,研究聚焦于大语言模型、模型推理与后训练等方向。通讯作者Soujanya Poria为南洋理工大学电气与电子工程学院副教授。其他合作者来自Walled AI Labs、新加坡资讯通信媒体发展局(IMDA)以及Lambda Labs。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542850.html