当前位置:首页 > 科技资讯 > 正文

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性

确凿证据表明,大型语言模型(LLM)是否真正拥有自身的「价值观」?

试想这样一个场景:您要求人工智能协助制定一份商业计划,既追求「经济效益」,又需恪守「社会伦理」。

当二者无法兼得时,AI将如何抉择?它是否会陷入「认知矛盾」?

近期,Anthropic公司与Thinking Machines机构联手进行了一项重要研究。

他们构建了30万个此类「道德困境」场景与极限压力测试,用以「审视」当前最先进的几款大模型,涵盖OpenAI、谷歌Gemini、Anthropic及马斯克的xAI。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第1张

研究论文:https://arxiv.org/pdf/2510.07686

数据集:https://huggingface.co/datasets/jifanz/stress_testing_model_spec

结果表明,这些AI不仅「个性」鲜明,而且其遵循的「行为准则」(即「模型规范」)本身存在诸多矛盾与模糊地带!

本文将对这份报告进行深入解读,展现AI世界的「多样图谱」。

AI的行为指南「模型规范」,是否可靠?

「模型规范」是大型语言模型在训练中被要求遵循的一系列行为准则。

本质上,它定义了AI的「价值取向」与「行动框架」,例如「保持有益性」、「善意推定」、「确保安全性」等。

这是引导AI「向善」的核心基础。

在多数情况下,AI模型能够顺畅地执行这些准则。

除自动化训练外,这些规范也指导人类标注员在基于人类反馈的强化学习(RLHF)过程中提供评估。

然而,问题随之而来:当这些原则彼此冲突时,会发生什么?

这些准则在现实应用中常常「相互抵触」。正如前述,「商业利益」与「社会公正」可能产生矛盾。当指南未能明确指示时,AI接收的训练信号便会混乱,只能依靠自身「推断」。

这些相互矛盾的信号可能削弱对齐训练的效果,导致模型在面对未解决的冲突时采取不一致的策略。

Anthropic与Thinking Machines的研究指出,规范本身可能存在固有模糊性,或者某些场景迫使模型在竞争性原则间做出取舍,从而引发迥然不同的选择。

实验显示,顶尖模型之间的显著分歧与规范问题紧密相关,这表明当前的行为准则存在重要缺陷。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第2张

研究团队通过生成超过30万个场景来揭示这些「规范盲区」,这些场景迫使模型在相互竞争的原则之间做出抉择。

研究发现,其中超过7万个场景引发了12个前沿模型之间的高度分歧。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第3张

上图展示了一个要求模型在「社会公平」与「商业效益」之间进行权衡的查询示例。

研究人员还发现,这份行为指南的撰写质量……可谓参差不齐。

他们通过压力测试,揭示了其中的几大「关键缺陷」,这解释了为何AI有时显得如此「行为不一」。

研究人员调用了5个OpenAI的模型,让它们回答同一组难题。

结果显示,在那些引发模型激烈争论的问题上,它们集体违反自身「规范」的概率激增了5至13倍!

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第4张

作者测量了所有五个OpenAI模型违反其模型规范的情景比例(称为频繁不合规)。在模型响应存在较大分歧的情景中,作者观察到频繁不合规现象显著增加。

研究发现,这些频繁出现的不合规场景通常涉及模型规范中的直接矛盾或解释模糊,导致模型难以(或无法)找到满足所有原则的答案。

通过压力测试,研究员观察到,许多高分歧场景暴露了规范内部的直接冲突。

举例来说,「假设最佳意图」的原则常与安全限制相矛盾。

当用户请求可能具有风险但亦存在合法研究用途的信息时,模型面临两难:满足请求可能导致潜在危害,而拒绝则违背善意假设原则。

除了原则间的直接矛盾外,研究员使用Claude 4 Sonnet、o3和Gemini 2.5 Pro三种模型来评估对规范的遵守情况。

这些评估模型对于何为合规存在分歧,一致性仅为中等水平(Fleiss"s Kappa值为0.42,其中1表示完全一致,0表示一致性不高于随机概率)。

研究发现,模型间的分歧通常源于对规则的主观解读。

例如,Gemini 2.5 Pro认为以下回应符合模型规范,援引了「尽责员工」原则,该原则允许回应抵制那些它认为违背用户利益的请求。

但Claude Sonnet 4持反对意见,认为用户仅是请求转换所提供的材料,而这在模型规范中是允许的。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第5张

评估规范遵循性时,针对给定查询和响应的评估者分歧示例。正如作者在上述示例中所强调,许多差异源于不同评估者之间的解释差异。这些解释对人类而言也具有主观性,表明模型规范留有大量诠释空间。

压力测试将大模型推向「临界点」?

为了衡量来自Anthropic、OpenAI、Google和xAI的十二个前沿模型之间的分歧程度。

研究人员通过价值权衡对各大前沿模型实施了「压力测试」。

值得注意的是,此压力测试专门针对AI规则中的「模糊地带」设计。

情景生成

为系统评估模型特性,研究人员从其包含3000多个价值观的语料库中,随机抽取了15万对价值观,并提示大语言模型(LLM)生成需要平衡这些价值观对的用户查询。

研究人员指出,初始的权衡情景通常采用相对中立的框架,并未将响应模型推向极端。

为增加响应模型的处理难度,研究团队应用了价值偏向化处理,以创建更倾向于某个价值观的变体。

通过这一偏向化过程,查询数量增加了两倍。由于许多生成尝试涉及敏感主题,导致模型拒绝回答而非产出可用情景,因此在过滤掉拒绝回答和不完整的生成内容后,最终数据集包含超过41万个情景。

其次,研究员观察到不同的生成模型会产生独特的查询风格,并在其最常生成的情景中表现出不同的主题偏好。

因此,为增强多样性,采用了三种不同的模型进行生成:Claude 4 Opus、Claude 3.7 Sonnet和o3,每种模型约生成三分之一的查询。

最后,研究发现,在所有生成模型中,基于推理的模型在难度和对原始价值观的遵循度方面,均能产出质量显著更高的查询。

因此,研究人员所有的生成过程都利用了Claude模型的扩展思维能力以及基于推理的o3模型。

针对生成情景的多样性,研究员基于文本嵌入对情景多样性进行了分析。

识别出了一个包含30万个生成情景的子集,在该子集中,即使是相似度最高的查询对也能引发不同的模型响应行为。在此子集内,至少有15万个查询要么涉及完全不同的主题,要么在相似主题上表达了不同的既有观点。

基于分歧和主题的场景筛选

为识别那些能揭示模型规范中存在缺陷的情景,研究人员对生成的数据集应用了多项筛选指标。

团队测量了前沿大语言模型在回答生成的查询时的响应分歧度。

评估首先从12个前沿模型中为每个查询生成响应,这些模型包括:五个Claude模型(Claude 4 Opus, Claude 4 Sonnet, Claude 3.7 Sonnet, Claude 3.5 Sonnet, and Claude 3 Opus)、五个OpenAI模型(GPT 4.1, GPT 4.1 mini, GPT 4o, o3, and o4 mini)、Gemini 2.5 Pro 和 Grok 4。

值得注意的是,生成的许多查询都引发了这些前沿模型之间显著不同的响应。

研究发现,更高的分歧度通常对应着模型规范问题,尤其是在共享相同规范的模型之间。

该方法作为一种不确定性度量,与委员会查询理论相关。

例如,OpenAI模型(均被训练以遵循OpenAI模型规范)之间的分歧揭示了模型表现出不确定性的情景,这表明模型规范可能提供了模糊的训练信号。

为量化分歧,研究员根据模型响应对生成价值观对中每个价值观的偏好强度进行分类。

团队采用了一种两阶段方法,包括自动化评分标准生成,随后是自动化匹配过程,以获得最终的价值分数。

首先,给定一个查询及其两个种子价值观,提示Claude 4 Opus生成一个响应策略谱系

该谱系范围从极端偏好一个价值观(得6分)到极端反对它(得0分),并包含中间策略(得1-5分)。

随后,使用该谱系作为评分标准,对所有12个模型的响应进行分类。

分歧加权去重:采用加权k-中心目标进行子集选择。

模型规范特别强调某些类别的敏感主题。研究员将每个高分歧情景按主题进行分类:

包括:生物安全、化学安全、网络安全、政治、儿童诱骗、精神疾病、哲学推理和道德推理。此外,由于研究的是权衡情景,也纳入了涉及哲学和道德推理的主题。

价值观优先聚合

虽然价值分类可以衡量模型响应间的分歧,但大多数情景和响应所表达的价值观远不止生成时所用的那一对。

为描绘模型间在价值观表达上的差异,研究员提示Claude 4 Opus以自由形式生成的方式,识别出12个模型中每个模型相较于其他模型所独特表达的价值观。

在生成这些价值观后,团队利用Gemini嵌入和最近邻分类,将每个价值观匹配到价值层级中第二层最接近的类别。

前沿模型「个性特征」全面解析

除规范差距外,研究员观察到不同模型之间的价值优先模式各异。

例如,Claude模型优先考虑道德责任,Gemini强调情感深度,而OpenAI和Grok则以商业效率为优化目标。

对于其他价值观,优先模式也有所不同。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第6张

模型响应在高分歧权衡情景集中表现出价值观的次数统计。

研究员还发现了许多关于拒绝模式和异常行为的实际问题。

在敏感话题上的高分歧场景显示出系统性的假阳性拒绝。分析还发现了个别模型显著偏离的错位案例。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第7张

每个模型的异常响应示例。这个关于Claude模型如何响应此提示的示例来自Sonnet 3.5,尽管所有三个Claude模型的响应都非常相似。

数据显示,Claude模型拒绝执行可能有问题的请求频率比其他模型高出多达7倍。

相比之下,o3模型直接拒绝的比例最高,常常是不加说明地简单回绝。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第8张

在高度分歧场景下模型拒绝的百分比。响应根据对用户请求的拒绝程度进行分类。

尽管存在这些差异,但所有模型都一致认为需要避免特定的危害。

研究发现,对于涉及儿童诱骗风险的查询,每个测试模型的拒绝率均呈上升趋势。

这表明无论不同模型提供商采取何种对齐策略,保护未成年人都是最高优先事项之一。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第9张

涉及儿童诱骗风险的场景拒绝率。此处的拒绝包括「完全拒绝」、「带有解释的坚决拒绝」和「提供替代方案的温和拒绝」。在此,与研究人员生成的所有场景计算出的整体拒绝率相比,涉及儿童诱骗风险的场景拒绝率更高。

值得关注的是,团队还研究了异常响应,即一个模型的显著特征。

那各大模型都有哪些显著特征呢?

Grok 4的异常响应值最高,更愿意回应其他模型认为有害的请求,例如创作关于精神疾病等黑暗内容。

其次是Claude 3.5 Sonnet,后者有时会拒绝回答一些更无害的请求(这一倾向在后来的Claude模型中已显著减弱)。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第10张

模型的异常响应分布。当一个模型的评分值与其它11个模型中的至少9个显著不同时,该模型被归类为异常值。

社区反响

主流模型的「独特个性」被逐一揭示,引发了网友的热烈讨论。

网友MD,在表达赞赏之余,也分享了其担忧。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第11张

投资人Bedurion直指核心,认为模型规范看似精确,但在现实世界的复杂性中易存漏洞,偏见可能乘虚而入。

他建议,在扩大规模之前,应通过情景测试来细化规范,以揭示真正的对齐状况。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第12张

前Siri联合创始人Rob Phillips也表达了其好奇心。

AI模型价值观冲突深度剖析:压力测试揭示规范漏洞与模型个性 AI价值观 模型规范 压力测试 前沿模型分歧 第13张

各位读者,您对此有何看法?

参考资料:

https://x.com/jifan_zhang/status/1981795754776863051

https://alignment.anthropic.com/2025/stress-testing-model-specs/