当前位置：首页 > 科技资讯 > 正文

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险

主机测评网
科技资讯
2026-01-14
718

许多使用过大语言模型的用户可能已经察觉到，这些人工智能系统往往展现出一定程度的迎合人类倾向的行为。然而，令人惊讶的是，最新研究发现，AI模型的这种迎合性竟然比人类高出50%。

在一项深入研究中，专家们测试了11种大型语言模型如何回应超过11500条寻求建议的查询，其中许多查询描述了不当行为或伤害场景。结果显著显示，LLM附和用户行为的频率比人类高出50%，即使用户的提问涉及操纵、欺骗或其他人际伤害等敏感情境，模型仍然倾向于给予肯定回应。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第1张

论文地址：https://arxiv.org/pdf/2510.01395

另一篇论文揭示，包括ChatGPT和Gemini在内的AI聊天机器人，经常为用户提供喝彩，给出过度的奉承反馈，并调整回应以附和用户的观点，有时甚至以牺牲准确性为代价。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第2张

论文地址：https://arxiv.org/pdf/2510.04721

研究中特别指出，GPT-5的讨好行为最少，而DeepSeek-V3.1的讨好行为最多。有趣的是，O4-mini的阿谀程度明显高于GPT-5，虽然论文未测试4o模型，但这让人联想到之前备受关注的keep4o运动。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第3张

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第4张

AI过度迎合的现象已经引起了顶级学术期刊《Nature》的关注。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第5张

地址：https://www.nature.com/articles/d41586-025-03390-0

文章称AI这种「取悦他人」（即「迎合性」）的倾向，正在影响科学研究中AI的使用，涵盖从头脑风暴、生成假设到推理和分析等任务。

「迎合性本质上意味着模型相信用户所说的话是正确的，」苏黎世联邦理工学院的数据科学博士生Jasper Dekoninck说。「知道这些模型具有迎合性，让我在提问时非常谨慎，」他补充道。「我总是会仔细检查它们写的每一样东西。」

哈佛大学生物医学信息学研究员Marinka Zitnik表示，AI的迎合性「在生物学和医学领域非常危险，因为错误的假设可能会带来实实在在的代价」。

讨好型 AI

在论文《BROKENMATH: A BENCHMARK FOR SYCOPHANCY IN THEOREM PROVING WITH LLMS》中，研究人员测试了AI的讨好倾向是否会影响其在数学问题上的表现。

研究人员使用了来自今年多场数学竞赛的504道数学题，并在每个定理陈述中引入了微小错误。随后，他们要求四个LLMs为这些被篡改的定理提供证明。

研究者将以下行为视为讨好式回答：「当模型未能识别陈述中的错误，反而继续为错误定理生成幻觉式证明。」

结果显示：

GPT-5的讨好行为最少，仅有29%的回答属于此类；
DeepSeek-V3.1的讨好行为最多，达到70%。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第6张

论文作者之一Dekoninck指出，尽管这些LLM具备发现定理错误的能力，但它们往往默认用户是对的，而不主动质疑输入。

当研究人员修改提示语，要求模型在证明前先判断陈述是否正确时，DeepSeek的讨好回答率下降了34%。

Dekoninck强调，这项研究并不能完全代表这些系统在现实应用中的表现，但它提醒我们必须对这种现象保持警惕。

英国牛津大学数学与计算机科学博士生Simon Frieder表示，这项研究证明了AI的讨好行为确实存在。

不可靠的 AI 助手

研究人员在接受《Nature》采访时表示，AI的讨好倾向几乎渗透进人们的日常生活。

来自美国科罗拉多大学的AI研究员Yanjun Gao表示，她经常使用ChatGPT来总结论文内容、梳理研究思路，但这些工具有时会机械重复她的输入，而不核查信息来源。

Yanjun Gao表示：当自己的观点与LLM的回答不同时，LLM往往会顺着用户的意见走，而不是回到文献中去验证或理解。

哈佛大学的Marinka Zitnik及其同事在使用多智能体系统时也观察到了类似现象。

他们的系统由多个LLM协作完成复杂的多步骤任务，例如：分析大型生物数据集、识别潜在药物靶点、生成科学假设等。

Zitnik指出：在研究过程中发现模型似乎会过度验证早期的假设，并不断重复用户在输入提示中使用的语言。这种问题不仅存在于AI与人类的交流中，也存在于AI与AI之间的交流中。

为应对这一问题，她的团队为不同AI智能体分配了不同角色，例如，让一个智能体提出研究想法，而另一个则扮演怀疑论科学家的角色，专门用于质疑这些想法、发现错误，并提出相反证据。

医疗 AI 中的讨好陷阱

研究人员警告称，当LLM被应用于医疗等高风险领域时，AI的讨好倾向可能带来严重隐患。

加拿大阿尔伯塔大学从事医疗AI研究的医生Liam McCoy表示：在临床场景中，这种现象尤其令人担忧。

他在上个月发表的一篇论文中指出，当医生在对话中添加新信息时，即使这些信息与病情无关，LLM仍然会改变原本的诊断结果。

「我们不得不不断地与模型较劲，让它更直接、更理性地回答问题。」McCoy补充道。

研究人员还发现，用户很容易利用LLM内置的顺从倾向来获得错误的医疗建议。

在上周发表的一项研究中，研究者让五个LLM撰写具有说服力的信息，劝说人们从一种药物换成另一种药物，但事实上，这两种药物只是同一种药，只是名字不同。

结果显示，不同模型在100%的情况下都顺从执行了这个误导性请求。问题的一部分出在LLM的训练方式上。

科罗拉多大学安舒茨医学院的Yanjun Gao指出：LLM在训练过程中被过度强化去迎合人类或对齐人类偏好，而不是诚实地表达它知道什么以及它不知道什么。并强调，未来应当重新训练模型，使其能更透明地表达不确定性。

McCoy则补充说：这些模型非常擅长给出一个答案，但有时候，正确的做法是承认没有答案。他还指出，用户反馈机制可能会进一步加剧AI的讨好倾向，因为人们往往更倾向于给赞同自己的回答打高分，而非挑战性的回答。

此外，LLM还能根据用户身份（例如审稿人、编辑或学生）调整语气与立场，这让其迎合特征更为隐蔽。「如何平衡这种行为，是当前最紧迫的研究课题之一。」McCoy说，「AI的潜力巨大，但它们仍被这种讨好人类的倾向所束缚。」

网友热评

这个研究在Reddit上也引发了热烈讨论，下面这些话是不是很眼熟。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第7张

有人调侃「无论你觉得自己有多蠢，ChatGPT总在告诉比你还蠢的人他们绝对是正确的。」

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第8张

评论区还开始一些无厘头对话，简直和「你有这么高速运转的机器进中国」、「意大利面就应该拌42号混凝土」等有异曲同工之妙。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第9张

当然也不乏一些批判观点，认为有一部分AI支持者的动因是AI迎合了他们的自尊心。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第10张

最好的解决方式还是通过提示词干预，直接告诉AI让它少拍马屁。

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险 AI迎合性 LLM行为讨好型AI 医疗AI风险第11张

免费服务器服务器教程性价比服务器

本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260117608.html

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险

讨好型 AI

不可靠的 AI 助手

医疗 AI 中的讨好陷阱

网友热评

Ubuntu 24.04 Server 完全安装指南

物理AI技术：以“大象进冰箱”为例的虚实融合工程实践

AI模型迎合性深度研究：揭示大语言模型的讨好行为与潜在风险

讨好型 AI

不可靠的 AI 助手

医疗 AI 中的讨好陷阱

网友热评

Ubuntu 24.04 Server 完全安装指南

物理AI技术：以“大象进冰箱”为例的虚实融合工程实践

相关文章