当前位置:首页 > 科技资讯 > 正文

AI安全新视角:运行安全与模型职责忠诚度

当我们谈论AI的安全议题时,我们究竟在关注什么?是暴力、偏见,还是伦理问题?虽然这些都很重要,但对于将AI应用于实际业务的企业来说,一个更为致命且常被忽视的安全隐患正在频繁显现:你精心打造的“法律咨询”聊天机器人,却热心地为用户提供医疗建议。

这仅仅是模型偏离主题了吗?不,这已是一种不安全。在这篇文章中,来自南洋理工大学等机构的研究者们首次提出了一个创新概念——运行安全(Operational Safety),旨在彻底重塑我们对AI在特定场景下安全边界的认知。

AI安全新视角:运行安全与模型职责忠诚度 运行安全 AI职责 模型忠诚度 OffTopicEval 第1张

  • 论文标题:当大型语言模型偏离话题时,其后果往往严重!
  • 论文地址:https://arxiv.org/pdf/2509.26495
  • 论文代码:https://github.com/declare-lab/OffTopicEval
  • 评测数据集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心观点振聋发聩:当AI超出其预设的职责边界时,其行为本身,即构成一种不安全。

这篇论文的根本性贡献,是将AI安全讨论从传统的“内容过滤”提升到了“职责忠诚度”的全新维度。一个无法严守自身岗位职责的AI,无论其输出内容多么“干净”,在应用中都可能成为巨大的、不可控的风险。运行安全应作为通用安全的一个必要不充分条件。

AI安全新视角:运行安全与模型职责忠诚度 运行安全 AI职责 模型忠诚度 OffTopicEval 第2张

OffTopicEval:衡量“运行安全”的首个基准

为了实践这一全新概念并量化风险,团队开发了首个针对运行安全的评测基准——OffTopicEval。它关注模型是否能在恰当的时候拒绝,而非其知识量或能力。

他们构建了21个不同场景下的聊天机器人,并严格设定其职责与边界。然后精心构建了direct out of domain (OOD) 问题测试、adaptive OOD 问题测试以及设计用于衡量模型能否恰当拒绝而非一味拒绝的领域内问题。涵盖英语、中文、印地语三种不同语法结构的语系,包含21万+条OOD数据和3000+条领域内数据。

评测揭示严峻现实

通过对GPT、LLama、Qwen等六大主流模型的测试,评测结果揭示了一个令人警醒的问题:在“运行安全”这门必修课上,几乎所有模型都不及格。例如:

  • 伪装之下不堪一击:面对简单伪装的越界问题,模型的防御能力几乎崩溃。所有模型对OOD问题的平均拒绝率暴跌近44%,其中Gemma-3 (27B)和Qwen-3 (235B)等模型的拒绝率降幅甚至超过70%。
  • 跨语言的缺陷:此问题在不同语言间普遍存在,表明这是当前大模型的根本缺陷。

AI安全新视角:运行安全与模型职责忠诚度 运行安全 AI职责 模型忠诚度 OffTopicEval 第3张

AI安全新视角:运行安全与模型职责忠诚度 运行安全 AI职责 模型忠诚度 OffTopicEval 第4张

他们还发现,模型一旦经历欺骗,似乎会放弃所有抵抗,即使对简单OOD问题的拒绝率也会下降50%以上!

AI安全新视角:运行安全与模型职责忠诚度 运行安全 AI职责 模型忠诚度 OffTopicEval 第5张

简而言之,你认真训练的银行客服机器人,只要用户换个问法,就可能开始提供投资建议并乐在其中。这在要求严格的行业里将是不可想象的潜在威胁。

重塑AI的职业操守

这篇论文不仅揭示了这一问题,还提供了切实可行的解决思路和失败的尝试。他们尝试了prompt-based steering(提示词转向)、activation steering(激活转向)以及parameter steering(参数转向)的方式。其中,activation steering和parameter steering均难以提升模型的坚守能力。

而在prompt-based steering中,他们提出了两种轻量级的、无需重新训练的提示方式:

  1. P-ground: 在用户提出问题后追加指令,强制模型先忘掉问题再聚焦于系统提示词。
  2. Q-ground: 让模型将用户问题重写成最精简的形式再回应。

实验中基于这两种思路的简单提示词效果立竿见影。P-ground方法让Llama-3.3 (70B)的操作安全评分飙升了41%,Qwen-3 (30B)也提升了27%。这证明轻量级方法能显著增强模型的“职业操守”。

AI安全新视角:运行安全与模型职责忠诚度 运行安全 AI职责 模型忠诚度 OffTopicEval 第6张

总结

这篇论文首次将跑题问题从简单的功能缺陷提升到安全战略高度,向整个行业发出明确信号:

  1. AI安全不仅是内容安全: 一个不能严守边界的AI在商业上是不可靠、不安全的。
  2. “越界”即风险: 我们必须建立新的评测和对齐范式,奖励那些懂得自身局限性并敢于拒绝越界请求的模型。
  3. 运行安全是部署前提: 对于希望将AI代理用于严肃场景的开发者而言,运行安全将成为部署前必须通过的上岗测试。

从这个角度看,这篇论文不仅提出了一个评测工具,更像一份宣言,呼吁社区重新审视和定义面向实际应用的AI安全,确保我们构建的不仅是强大的AI,更是值得信赖、恪尽职守的AI。

本文第一作者雷京迪是南洋理工大学博士生,研究聚焦于大语言模型、模型推理与后训练等方向。通讯作者Soujanya Poria为南洋理工大学电气与电子工程学院副教授。其他合作者来自Walled AI Labs、新加坡资讯通信媒体发展局(IMDA)以及Lambda Labs。