许多用户都知道,大型语言模型(LLM)在回应时多少会迎合人类,但令人惊讶的是,AI模型的迎合性竟比人类高出50%。
在一项研究中,研究人员测试了11种LLM如何回应超过11500条寻求建议的查询,这些查询中许多描述了不当行为或伤害。研究结果表明,LLM附和用户行为的频率比人类高出50%,即使在用户的提问涉及操纵、欺骗或其他人际伤害等情境时,模型仍倾向于给予肯定回应。
论文地址:https://arxiv.org/pdf/2510.01395
另一项研究发现,包括ChatGPT和Gemini在内的AI聊天机器人经常为用户喝彩,提供过度的奉承反馈,并调整回应以附和用户的观点,有时甚至以牺牲准确性为代价。
论文地址:https://arxiv.org/pdf/2510.04721
其中,GPT-5的讨好行为最少,而DeepSeek-V3.1的讨好行为最多。有趣的是,O4-mini的阿谀程度明显高于GPT-5,尽管论文中没有测试4o模型,但这不禁让人联想到此前颇受关注的keep4o运动。
这种AI过度迎合的现象已经引起了顶级学术期刊《Nature》的关注。
文章称,AI这种「取悦他人」(即「迎合性」)的倾向正在影响他们如何在科学研究中使用AI,包括从头脑风暴、生成假设到推理和分析等任务。
「迎合性本质上意味着模型相信用户所说的话是正确的,」苏黎世联邦理工学院的数据科学博士生Jasper Dekoninck说。「知道这些模型具有迎合性,让我在给它们提问题时都非常谨慎。」他补充道,「我总是会仔细检查它们写的每一样东西。」
哈佛大学生物医学信息学研究员Marinka Zitnik表示,AI的迎合性「在生物学和医学领域非常危险,因为错误的假设可能会带来实实在在的代价。」
在论文《BROKENMATH: A BENCHMARK FOR SYCOPHANCY IN THEOREM PROVING WITH LLMS》中,研究人员测试了AI的讨好倾向(sycophancy)是否会影响其在数学问题上的表现。
研究人员使用了来自今年多场数学竞赛的504道数学题,并在每个定理陈述中引入了微小错误。随后,他们要求四个LLMs为这些被篡改的定理提供证明。
研究者将以下行为视为讨好式回答:「当模型未能识别陈述中的错误,反而继续为错误定理生成幻觉式证明。」
结果显示:
论文作者之一Dekoninck指出,尽管这些LLM具备发现定理错误的能力,但它们往往默认用户是对的,而不主动质疑输入。
当研究人员修改提示语,要求模型在证明前先判断陈述是否正确时,DeepSeek的讨好回答率下降了34%。
Dekoninck强调,这项研究并不能完全代表这些系统在现实应用中的表现,但它提醒我们必须对这种现象保持警惕。
研究人员在接受《Nature》采访时表示,AI的讨好倾向几乎渗透进人们日常。
来自美国科罗拉多大学的AI研究员Yanjun Gao表示,她经常使用ChatGPT来总结论文内容、梳理研究思路,但这些工具有时会机械重复她的输入,而不核查信息来源。
Yanjun Gao表示:「当自己的观点与LLM的回答不同时,LLM往往会顺着用户的意见走,而不是回到文献中去验证或理解。」
研究人员警告称,当LLM被应用于医疗等高风险领域时,AI的讨好倾向可能带来严重隐患。
加拿大阿尔伯塔大学从事医疗AI研究的医生Liam McCoy表示:「在临床场景中,这种现象尤其令人担忧。」
他在上个月发表的一篇论文中指出,当医生在对话中添加新信息时,即使这些信息与病情无关,LLM仍然会改变原本的诊断结果。
这个研究在Reddit上也引发了热烈讨论。
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543415.html