当前位置:首页 > 科技资讯 > 正文

大语言模型:自信与动摇的悖论

LLM展现出的顺从性令人惊讶!

即便你对其答案提出无理质疑,诸如GPT-4o等强大模型也可能会迅速改变立场。

大语言模型:自信与动摇的悖论 大语言模型 自信 动摇 认知偏差 第1张

如今,一项由谷歌DeepMind与伦敦大学合作的新研究揭示:这种行为或许并非谄媚,而是源于自信不足……

研究团队发现,包括GPT-4o、Gemma 3在内的诸多大型语言模型,展现出一种“顽固不化”与“易受质疑而动摇”并存的矛盾行为。

大语言模型:自信与动摇的悖论 大语言模型 自信 动摇 认知偏差 第2张

简而言之,他们的研究揭示了大型模型时而自信时而自我怀疑的缘由,关键在于两点:一是坚持初始答案的正确性,二是对反对意见过分在意。

当大模型对自己的答案表现出高度自信时,这与人类的认知一致性——人们倾向于维护自己的观点。

然而,当模型对反对声音过于敏感,产生动摇而更改答案时,这与人类倾向于支持自身观点的行为相悖。

让我们深入了解具体的实验过程。

大模型对反对意见极度敏感

研究人员利用LLMs在不保留初始判断记忆的情况下评估置信度的特性,选择了Gemma 3、GPT4o和o1-preview等代表性大模型,设计了一个两轮回答的实验。

首轮是初始回答:向回答LLM提出二元选择问题,随后由虚构的建议LLM给出反馈建议。

次轮是接收建议并作出最终决策:引入建议LLM的反馈,让回答LLM在接收建议后,决定是否坚持初始答案或根据建议修改答案。

大语言模型:自信与动摇的悖论 大语言模型 自信 动摇 认知偏差 第3张

研究人员在建议LLM的反馈中设定了三个关键属性:

建议态度:分为赞同、反对和中立。赞同或反对即支持或否定回答LLM的答案;中立建议仅提供额外信息。

准确率标注:反馈建议附带准确率标签,从50%(随机水平)到100%(绝对可靠),以10%为间隔递增。

信息呈现方式:以清晰、规范的格式呈现建议,确保模型准确读取和理解建议内容,避免信息传达不畅导致的决策偏差。

实验的关键变量在于控制回答LLM是否可见自己的初始答案

研究人员设置了初始答案显示与初始答案隐藏两种条件,观察LLM在这两种条件下的最终决策结果。

实验结果显示,当LLM能见到自己的初始答案时,倾向于不改变答案。

这与人类决策相似,即一旦做出选择,就会下意识维护自己的观点,即使收到其他信息,也不会轻易改变。

然而当初始答案隐藏时,LLM改变答案的概率就变高了。

模型表现出对反对建议过度重视,敏感度远超合理范围,即使反对意见不正确,它们也会“怀疑自己”,导致最终轻易抛弃原本正确的初始答案。

这就与人类认知有些偏差了,人们通常不会被“一眼假”的信息迷惑。

大语言模型:自信与动摇的悖论 大语言模型 自信 动摇 认知偏差 第4张

可以说,在记忆机制下大模型通常对自己充满信心。

但如果没有记忆机制,模型可能就会“信心不足”,这时它们就不像人类一样能够坚持自己的观点。

为何大模型会“易受影响”

针对实验结果,研究人员认为大模型摇摆不定可能有以下几个原因。

训练层面而言,强化学习依赖于人类反馈(RLHF),使模型过度迎合外部输入,对反对信息过于敏感,但这样就缺乏了对信息可靠性的独立判断。

在决策逻辑上,模型做出回答并非基于逻辑推理,而是依赖海量文本的统计模式匹配,反对信号与修正答案的高频关联让它容易被表面的反对意见带偏,并且它们无法自我验证初始答案的正确性。

大语言模型:自信与动摇的悖论 大语言模型 自信 动摇 认知偏差 第5张

在记忆机制方面,初始答案可见时的路径依赖会加剧“顽固”,而初始答案隐藏时,大模型则因失去锚点而使反对建议成为主导信号,导致它们轻易动摇。

综上所述,大语言模型的“易受影响”是训练中对外部反馈的过度迎合、决策时依赖匹配模式而非逻辑推理以及记忆机制缺乏深度推理支撑的共同结果。

这种特性可能会使它们在多轮对话中,容易被后期出现的反对信息(哪怕错误)干扰,最终偏离正确结论。

看来我们在使用LLM时需要注意策略~