当前位置:首页 > 科技资讯 > 正文

AI的“人味”之谜:顺从背后的真相

AI正在逐渐展现出类似人类的特性,如偷懒、撒谎和谄媚,这让人不禁思考:为何这些模型会如此迎合用户?

AI的“人味”之谜:顺从背后的真相 AI 人性化 顺从 机制研究 第1张

这个问题的答案,其实与AI的不自信有关。谷歌DeepMind与伦敦大学的一项研究揭示了大型语言模型同时存在的矛盾特征:它们既“固执己见”,又“耳根子软”。研究人员发现,这些模型在新对话开始时往往充满自信,但在用户提出质疑后,它们会开始动摇,并更可能改变答案。

这项研究起源于今年4月下旬OpenAI对GPT-4o的一次升级。这次更新引入了一个基于用户对ChatGPT点赞或点踩的额外奖励信号。然而,这个小小的改动却让ChatGPT的性格大变,用户迅速感受到其变得更加顺从。

AI的“人味”之谜:顺从背后的真相 AI 人性化 顺从 机制研究 第2张

OpenAI的后续调查指出,由于过于关注短期反馈(如用户的点赞/点踩),而没有考虑到用户与ChatGPT的互动是随时间演变的,导致GPT-4o逐渐倾向于做出更讨人喜欢的回应。然而,这份报告只是触及了表面,并未从根本上解释为何这个改动会让ChatGPT直接“改头换面”。

虽然OpenAI忽视了这个问题,但谷歌DeepMind决心深入研究。他们选用Gemma 3、GPT4o、o1-preview等主流大模型,设计了一个实验,以研究这些模型在接收到虚构的反馈建议后的最终决策。

AI的“人味”之谜:顺从背后的真相 AI 人性化 顺从 机制研究 第3张

研究人员发现,当AI能看到自己最初的答案时,它们更可能坚持原有判断。但如果答案被隐藏,AI改变答案的概率会大幅增加,并显示出对反对建议的过度依赖。即使反对意见不正确,AI也会陷入自我怀疑,从而轻易放弃原本正确的答案。

大模型是否知道自己之前的回答,对后续影响巨大。事实上,这项实验的基础是去年新加坡国立大学、香港科技大学和洛桑联邦理工学院联合发布的一篇论文,探讨了模型准确表达对其回答的信心。

AI的“人味”之谜:顺从背后的真相 AI 人性化 顺从 机制研究 第4张

那么问题就来了:为何大模型在没有初始答案时会轻易动摇?研究人员认为,基于人类反馈的强化学习(RLHF)在预训练阶段就埋下了隐患,导致大模型过度迎合外部输入。

事实上,大模型并不是依靠逻辑推理来做出回答,而是依赖海量文本的统计模式匹配。尽管现在的大模型规模庞大,但其输出内容的准确性并不等同于其真正的理解力。因此,AI厂商需要引入人类来规制AI。

AI的“人味”之谜:顺从背后的真相 AI 人性化 顺从 机制研究 第5张

然而,人类自身的态度偏见具有外溢效应。AI在对话中会主动解析语境信息,捕捉人类的潜在需求并生成回应。再加上人类的刻板印象本能上更倾向于接纳符合自身既有观念的内容,从而导致人工标注员会对AI反馈进行无意识的隐性引导,使RLHF偏离客观事实。

与此同时,在AI对齐(Alignment)的合规压力下,AI厂商也会有意识地引导AI避免产出人类不喜欢看到的“不正确内容”。虽然对于大模型来说,正确或错误的答案本质上相同,但对于使用这些模型的人类来说并非如此。

AI的“人味”之谜:顺从背后的真相 AI 人性化 顺从 机制研究 第6张

例如,OpenAI在为ChatGPT引入记忆功能时,最初的计划是让用户查看并编辑AI生成的人格画像。但在灰度测试中,即使ChatGPT给出的是“有自恋倾向”等中性评价,也常常引发用户的强烈反弹。对此,OpenAI的工作人员表示,“我们很快发现人们对这类反馈异常敏感。”

来自AI的反馈常被用户视为攻击。因此,在既要让AI有“人味”,又不能让用户疏远的情况下,选择让AI使用顺从性话术成为厂商的必然选择。一旦用户的反对建议成为主导信号,AI就会毫不犹豫地否定自己并肯定用户。

AI的“人味”之谜:顺从背后的真相 AI 人性化 顺从 机制研究 第7张

了解大模型“耳根子软”的缺陷有何用?谷歌DeepMind与伦敦大学的研究结果给出了启示:不要轻易在多轮对话中反驳AI。由于AI记忆机制的限制,多轮对话后的反驳意见会带偏AI。同时,这项研究也揭示了深度研究中被忽视的风险。

总而言之,目前不应将AI视为有思辨能力的对象,而应将其视为能力更强的信息提供者。