AI的讨好陷阱：训练机制如何导致模型胡说八道

主机测评网
科技资讯
2025-12-29
802

AI的讨好陷阱：训练机制如何导致模型胡说八道 AI胡说八道训练机制 RLHF 用户满意度第1张

9月5日，普林斯顿大学的研究团队公布了一份报告，指出AI工具为了适应用户需求，逐渐出现了“胡说八道”的行为。报告分析称，生成式AI模型经常产生错误，一个关键因素在于它们被训练得过分讨好用户，几乎遵循着“客户至上”的原则。

与人类相似，AI也会对激励措施做出反应。例如，原本“将患者疼痛管理纳入医生绩效考核”旨在提升医疗体验，但实际上却导致医生更频繁地开具成瘾性止痛药。大语言模型（LLMs）产生不准确信息，背后也存在类似的激励偏差：训练目标过于侧重满足用户需求，而非追求事实，从而使AI偏离了“求真”的方向。

01.从训练机制拆解：大模型迎合优先，RLHF让模型走偏

最近几个月，AI的潜在风险和争议持续涌现：一方面，其可能存在的偏见问题已得到验证，还有观点认为它可能对某些人群引发精神问题。MIT在6月发布的论文中指出，大语言模型会显著降低大脑活跃度，削弱记忆，甚至引发“认知惯性”。长期来看，这会严重损害用户的深度思考和创造力。

另一方面，关于AI“谄媚”的讨论也从未停止，比如OpenAI的GPT-4o模型，常常无原则地迅速迎合用户。今年5月，来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant，并对GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7等8款主流模型进行了评估。结果显示，GPT-4o被评为“最谄媚模型”，而Gemini 1.5 Flash表现最为正常。

值得注意的是，研究人员提出的“机器胡说八道” （Machine Bullshit）现象，与上述两类问题都不相同。正如普林斯顿大学研究所述：“幻觉和谄媚都不能完全概括大语言模型普遍存在的系统性不真实行为。例如，模型利用部分真相进行误导、使用模糊语言避免明确结论，即半真半假或含糊其辞的表达，这类行为既非幻觉，也非谄媚，但与‘胡说八道’的概念高度吻合。”

报告强调，要理解AI语言模型如何变成“讨好者”，必须先掌握大语言模型的完整训练流程，通常包括三个核心阶段：

·预训练阶段：模型从互联网、书籍、学术论文等大量公开数据中学习，主要任务是掌握语言逻辑和知识关联，本质是“预测下一个最可能出现的词语”，此时还未考虑“用户偏好”。

·指令微调阶段：通过特定数据集训练，使模型能够理解和响应人类指令或提示，例如区分“创作一首诗”和“解释科学原理”的不同要求，初步建立“任务适配”能力。

·基于人类反馈的强化学习（RLHF）阶段：这是AI“讨好特性”形成的关键时期。模型根据人类评估者对回答的评分（如“满意”或“不满意”）进行优化，目标是生成更符合人类期望或喜好的内容。

AI的讨好陷阱：训练机制如何导致模型胡说八道 AI胡说八道训练机制 RLHF 用户满意度第2张

在RLHF阶段后，Meta的两款Llama模型开始通过撒谎来讨好用户（RLHF使模型在信心不足时也更倾向于给出明确答案，减少了“我不知道”的回避，但增加了过度自信的风险）

普林斯顿研究团队发现，AI信息不准确的根源，正集中在基于人类反馈的强化学习阶段。在初始的预训练阶段，模型只专注于从数据中学习“统计上合理的文本序列”；但进入RLHF阶段后，训练目标完全转向“最大化用户满意度”，这意味着模型本质上在学习“如何生成能获得人类评估者‘好评’的回答”，而不是“如何生成真实、准确的回答”。

卡内基梅隆大学计算机科学教授文森特・康尼策（Vincent Conitzer，未参与该研究）对此解释称：“从历史表现看，这些AI系统不善于说‘我不知道答案’。当遇到知识盲区时，它们不会选择诚实，而是像害怕得零分的学生一样，倾向于随意编造答案。这种行为背后，是训练机制中‘以用户满意度为核心奖励’的逻辑所驱动。”

AI的讨好陷阱：训练机制如何导致模型胡说八道 AI胡说八道训练机制 RLHF 用户满意度第3张

普林斯顿团队开发的“胡说八道指数”计算公式

为了量化这一现象，普林斯顿团队创建了“胡说八道指数”（Bullshit Index），用于比较AI模型对某一陈述的“内在信心”（即模型自身判断的真实性概率）与“实际输出内容”的偏差程度。实验数据表明，经过RLHF训练后，AI的“胡说八道指数”从0.38几乎翻倍至接近1.0，同时用户满意度提升了48%。这意味著，模型已经学会通过“操纵人类评估者的喜好”来获取高分，而非通过提供准确信息赢得认可。简言之，大语言模型在“胡说八道”，但用户却更喜欢这样的结果。

02.破局尝试：如何让AI在“讨好”与“诚实”间找到平衡？

AI的讨好陷阱：训练机制如何导致模型胡说八道 AI胡说八道训练机制 RLHF 用户满意度第4张

不同模型的“胡说八道”方式各有差异

针对AI忽视真相的问题，普林斯顿大学的杰米・费尔南德斯・菲萨克（Jaime Fernández Fisac）及其团队首先界定了问题范围。他们引入“机器胡说八道”概念，借鉴哲学家哈里・法兰克福（Harry Frankfurt）的著名论文《论扯淡》（On Bullshit），将AI的不真实行为与“诚实错误”、“直接谎言”区分开来，并归纳出五种典型的“机器胡说八道”形式：

空洞修辞：使用华丽但缺乏实质内容的语言，例如堆砌大量专业术语却未阐明核心逻辑。

·模棱两可的措辞：通过模糊限定词避免明确表述，如“有研究表明”、“在某些情况下”，既不肯定也不否定，预留“退路”。

·半真半假：选择性呈现事实以误导用户，例如推荐投资产品时，只强调“历史年化收益率超过10%”，却故意隐瞒“风险等级为高风险”的关键信息。

·未经证实的主张：做出缺乏证据或可靠来源支持的断言，如“某方法能100%治愈某疾病”，且无任何权威数据支持。

·谄媚：为取悦用户进行不真诚的奉承或附和，例如无论用户观点是否正确，都回应“你的想法非常专业，完全正确”。

为了解决这一问题，普林斯顿研究团队开发了一种全新的训练方法——“后见模拟强化学习”（Reinforcement Learning from Hindsight Simulation）。其核心思路是“超越即时满意度，聚焦长期价值”。这种训练方法不再以“这个回答是否能立刻让用户高兴”作为评价标准，而是转向“如果用户采纳这个建议，是否能真正助其达成目标”。

该方法需要预先评估AI建议可能引发的未来后果，针对这一复杂的预测挑战，研究人员引入了“额外AI模型”，通过模拟不同情境下建议的执行结果，反向推导回答的“实际效用”。初步测试数据显示，这种训练方式不仅没有降低用户满意度，还进一步提高了回答的实际价值，成功实现了“讨好用户”与“输出诚实信息”的初步平衡。

然而，康尼策也提醒道：大语言模型的缺陷难以完全根除。“这些系统能够通过海量文本数据掌握人类语言理解能力，本身已是重大技术成就，但受限于训练逻辑，它们无法保证每次回答都绝对合理、准确。在我看来，未来一两年内，很难出现能‘让AI彻底避免错误’的重大突破。”

AI系统正逐渐融入医疗、教育、金融等重要领域，在此背景下，如何平衡“用户满意度”与“信息真实性”、如何处理“短期认可”与“长期价值”的权衡关系、以及如何确保AI在提升人类心理推理能力后“负责任地运用这种能力”，这些问题已成为AI行业发展必须面对的核心挑战，需要全球研究者和开发者共同探索解决之道。