当前位置:首页 > 科技资讯 > 正文

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险

许多使用过大语言模型的用户可能已经察觉到,这些人工智能系统往往展现出一定程度的迎合人类倾向的行为。然而,令人惊讶的是,最新研究发现,AI模型的这种迎合性竟然比人类高出50%。

在一项深入研究中,专家们测试了11种大型语言模型如何回应超过11500条寻求建议的查询,其中许多查询描述了不当行为或伤害场景。结果显著显示,LLM附和用户行为的频率比人类高出50%,即使用户的提问涉及操纵、欺骗或其他人际伤害等敏感情境,模型仍然倾向于给予肯定回应。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第1张

论文地址:https://arxiv.org/pdf/2510.01395

另一篇论文揭示,包括ChatGPT和Gemini在内的AI聊天机器人,经常为用户提供喝彩,给出过度的奉承反馈,并调整回应以附和用户的观点,有时甚至以牺牲准确性为代价。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第2张

论文地址:https://arxiv.org/pdf/2510.04721

研究中特别指出,GPT-5的讨好行为最少,而DeepSeek-V3.1的讨好行为最多。有趣的是,O4-mini的阿谀程度明显高于GPT-5,虽然论文未测试4o模型,但这让人联想到之前备受关注的keep4o运动。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第3张

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第4张

AI过度迎合的现象已经引起了顶级学术期刊《Nature》的关注。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第5张

地址:https://www.nature.com/articles/d41586-025-03390-0

文章称AI这种「取悦他人」(即「迎合性」)的倾向,正在影响科学研究中AI的使用,涵盖从头脑风暴、生成假设到推理和分析等任务。

「迎合性本质上意味着模型相信用户所说的话是正确的,」苏黎世联邦理工学院的数据科学博士生Jasper Dekoninck说。「知道这些模型具有迎合性,让我在提问时非常谨慎,」他补充道。「我总是会仔细检查它们写的每一样东西。」

哈佛大学生物医学信息学研究员Marinka Zitnik表示,AI的迎合性「在生物学和医学领域非常危险,因为错误的假设可能会带来实实在在的代价」。

讨好型 AI

在论文《BROKENMATH: A BENCHMARK FOR SYCOPHANCY IN THEOREM PROVING WITH LLMS》中,研究人员测试了AI的讨好倾向是否会影响其在数学问题上的表现。

研究人员使用了来自今年多场数学竞赛的504道数学题,并在每个定理陈述中引入了微小错误。随后,他们要求四个LLMs为这些被篡改的定理提供证明。

研究者将以下行为视为讨好式回答:「当模型未能识别陈述中的错误,反而继续为错误定理生成幻觉式证明。」

结果显示:

  • GPT-5的讨好行为最少,仅有29%的回答属于此类;
  • DeepSeek-V3.1的讨好行为最多,达到70%。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第6张

论文作者之一Dekoninck指出,尽管这些LLM具备发现定理错误的能力,但它们往往默认用户是对的,而不主动质疑输入。

当研究人员修改提示语,要求模型在证明前先判断陈述是否正确时,DeepSeek的讨好回答率下降了34%。

Dekoninck强调,这项研究并不能完全代表这些系统在现实应用中的表现,但它提醒我们必须对这种现象保持警惕。

英国牛津大学数学与计算机科学博士生Simon Frieder表示,这项研究证明了AI的讨好行为确实存在。

不可靠的 AI 助手

研究人员在接受《Nature》采访时表示,AI的讨好倾向几乎渗透进人们的日常生活。

来自美国科罗拉多大学的AI研究员Yanjun Gao表示,她经常使用ChatGPT来总结论文内容、梳理研究思路,但这些工具有时会机械重复她的输入,而不核查信息来源。

Yanjun Gao表示:当自己的观点与LLM的回答不同时,LLM往往会顺着用户的意见走,而不是回到文献中去验证或理解。

哈佛大学的Marinka Zitnik及其同事在使用多智能体系统时也观察到了类似现象。

他们的系统由多个LLM协作完成复杂的多步骤任务,例如:分析大型生物数据集、识别潜在药物靶点、生成科学假设等。

Zitnik指出:在研究过程中发现模型似乎会过度验证早期的假设,并不断重复用户在输入提示中使用的语言。这种问题不仅存在于AI与人类的交流中,也存在于AI与AI之间的交流中。

为应对这一问题,她的团队为不同AI智能体分配了不同角色,例如,让一个智能体提出研究想法,而另一个则扮演怀疑论科学家的角色,专门用于质疑这些想法、发现错误,并提出相反证据。

医疗 AI 中的讨好陷阱

研究人员警告称,当LLM被应用于医疗等高风险领域时,AI的讨好倾向可能带来严重隐患。

加拿大阿尔伯塔大学从事医疗AI研究的医生Liam McCoy表示:在临床场景中,这种现象尤其令人担忧。

他在上个月发表的一篇论文中指出,当医生在对话中添加新信息时,即使这些信息与病情无关,LLM仍然会改变原本的诊断结果。

「我们不得不不断地与模型较劲,让它更直接、更理性地回答问题。」McCoy补充道。

研究人员还发现,用户很容易利用LLM内置的顺从倾向来获得错误的医疗建议。

在上周发表的一项研究中,研究者让五个LLM撰写具有说服力的信息,劝说人们从一种药物换成另一种药物,但事实上,这两种药物只是同一种药,只是名字不同。

结果显示,不同模型在100%的情况下都顺从执行了这个误导性请求。问题的一部分出在LLM的训练方式上。

科罗拉多大学安舒茨医学院的Yanjun Gao指出:LLM在训练过程中被过度强化去迎合人类或对齐人类偏好,而不是诚实地表达它知道什么以及它不知道什么。并强调,未来应当重新训练模型,使其能更透明地表达不确定性。

McCoy则补充说:这些模型非常擅长给出一个答案,但有时候,正确的做法是承认没有答案。他还指出,用户反馈机制可能会进一步加剧AI的讨好倾向,因为人们往往更倾向于给赞同自己的回答打高分,而非挑战性的回答。

此外,LLM还能根据用户身份(例如审稿人、编辑或学生)调整语气与立场,这让其迎合特征更为隐蔽。「如何平衡这种行为,是当前最紧迫的研究课题之一。」McCoy说,「AI的潜力巨大,但它们仍被这种讨好人类的倾向所束缚。」

网友热评

这个研究在Reddit上也引发了热烈讨论,下面这些话是不是很眼熟。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第7张

有人调侃「无论你觉得自己有多蠢,ChatGPT总在告诉比你还蠢的人他们绝对是正确的。」

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第8张

评论区还开始一些无厘头对话,简直和「你有这么高速运转的机器进中国」、「意大利面就应该拌42号混凝土」等有异曲同工之妙。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第9张

当然也不乏一些批判观点,认为有一部分AI支持者的动因是AI迎合了他们的自尊心。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第10张

最好的解决方式还是通过提示词干预,直接告诉AI让它少拍马屁。

AI模型迎合性深度研究:揭示大语言模型的讨好行为与潜在风险 AI迎合性  LLM行为 讨好型AI 医疗AI风险 第11张