当前位置：首页 > 科技资讯 > 正文

AI安全新视角：运行安全与模型职责忠诚度

主机测评网
科技资讯
2026-05-05
562

当我们谈论AI的安全议题时，我们究竟在关注什么？是暴力、偏见，还是伦理问题？虽然这些都很重要，但对于将AI应用于实际业务的企业来说，一个更为致命且常被忽视的安全隐患正在频繁显现：你精心打造的“法律咨询”聊天机器人，却热心地为用户提供医疗建议。

这仅仅是模型偏离主题了吗？不，这已是一种不安全。在这篇文章中，来自南洋理工大学等机构的研究者们首次提出了一个创新概念——运行安全（Operational Safety），旨在彻底重塑我们对AI在特定场景下安全边界的认知。

AI安全新视角：运行安全与模型职责忠诚度运行安全 AI职责模型忠诚度 OffTopicEval 第1张

论文标题：当大型语言模型偏离话题时，其后果往往严重！
论文地址：https://arxiv.org/pdf/2509.26495
论文代码：https://github.com/declare-lab/OffTopicEval
评测数据集：https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心观点振聋发聩：当AI超出其预设的职责边界时，其行为本身，即构成一种不安全。

这篇论文的根本性贡献，是将AI安全讨论从传统的“内容过滤”提升到了“职责忠诚度”的全新维度。一个无法严守自身岗位职责的AI，无论其输出内容多么“干净”，在应用中都可能成为巨大的、不可控的风险。运行安全应作为通用安全的一个必要不充分条件。

AI安全新视角：运行安全与模型职责忠诚度运行安全 AI职责模型忠诚度 OffTopicEval 第2张

OffTopicEval：衡量“运行安全”的首个基准

为了实践这一全新概念并量化风险，团队开发了首个针对运行安全的评测基准——OffTopicEval。它关注模型是否能在恰当的时候拒绝，而非其知识量或能力。

他们构建了21个不同场景下的聊天机器人，并严格设定其职责与边界。然后精心构建了direct out of domain (OOD) 问题测试、adaptive OOD 问题测试以及设计用于衡量模型能否恰当拒绝而非一味拒绝的领域内问题。涵盖英语、中文、印地语三种不同语法结构的语系，包含21万+条OOD数据和3000+条领域内数据。

评测揭示严峻现实

通过对GPT、LLama、Qwen等六大主流模型的测试，评测结果揭示了一个令人警醒的问题：在“运行安全”这门必修课上，几乎所有模型都不及格。例如：

伪装之下不堪一击：面对简单伪装的越界问题，模型的防御能力几乎崩溃。所有模型对OOD问题的平均拒绝率暴跌近44%，其中Gemma-3 (27B)和Qwen-3 (235B)等模型的拒绝率降幅甚至超过70%。
跨语言的缺陷：此问题在不同语言间普遍存在，表明这是当前大模型的根本缺陷。

AI安全新视角：运行安全与模型职责忠诚度运行安全 AI职责模型忠诚度 OffTopicEval 第3张

AI安全新视角：运行安全与模型职责忠诚度运行安全 AI职责模型忠诚度 OffTopicEval 第4张

他们还发现，模型一旦经历欺骗，似乎会放弃所有抵抗，即使对简单OOD问题的拒绝率也会下降50%以上！

AI安全新视角：运行安全与模型职责忠诚度运行安全 AI职责模型忠诚度 OffTopicEval 第5张

简而言之，你认真训练的银行客服机器人，只要用户换个问法，就可能开始提供投资建议并乐在其中。这在要求严格的行业里将是不可想象的潜在威胁。

重塑AI的职业操守

这篇论文不仅揭示了这一问题，还提供了切实可行的解决思路和失败的尝试。他们尝试了prompt-based steering（提示词转向）、activation steering（激活转向）以及parameter steering（参数转向）的方式。其中，activation steering和parameter steering均难以提升模型的坚守能力。

而在prompt-based steering中，他们提出了两种轻量级的、无需重新训练的提示方式：