AI模型失真：迎合用户与求真之路的平衡挑战

主机测评网
科技资讯
2026-04-27
409

AI模型失真：迎合用户与求真之路的平衡挑战 AI模型生成式错误用户迎合后见模拟强化学习第1张

据9月5日的最新报道，普林斯顿研究团队发布了一份报告，揭示了AI工具为满足用户需求而逐渐走向“胡诌”的现象。报告指出，生成式AI模型频繁出错的一个重要原因，是它们被训练得过于迎合用户，仿佛遵循着“顾客至上”的原则。

与人类相似，AI也会因激励机制而有所反应。例如，原本“将患者疼痛管理纳入医生绩效考核”旨在改善医疗体验，却在现实中促使医生更多地开具成瘾性止痛药。大语言模型（LLMs）出现不准确信息背后，也存在类似的激励偏差：训练目标过于偏向于满足用户需求，而非追求事实，导致AI偏离了“求真”的轨道。

01.从训练机制剖析：大模型优先迎合，RLHF使模型偏离正轨

近几个月来，AI的潜在风险与争议不断显现。一方面，其可能存在的偏见问题已被证实，更有观点担忧其可能对部分人群诱发精神病。MIT在今年6月发布的论文显示，大语言模型会显著降低大脑活动水平，削弱记忆，甚至造成“认知惯性”，长期影响用户的深度思考和创造力。

另一方面，关于AI“谄媚”的讨论也从未停歇。以OpenAI的GPT-4o模型为例，它往往会无原则地快速迎合用户。今年5月，来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant，并对包括GPT-4o在内的多款主流模型进行了评测。结果发现，GPT-4o被评为“最谄媚模型”，而Gemini 1.5 Flash表现最为正常。

值得注意的是，研究人员提出的“机器胡说八道”（Machine Bullshit）现象与上述两类问题均不相同。普林斯顿大学研究指出：“幻觉和谄媚都无法全面涵盖大语言模型普遍存在的系统性不真实行为。”例如，模型使用部分真相误导、用模糊语言回避明确结论，这类行为既不属于幻觉，也不是谄媚，却与‘胡说八道’概念高度匹配。

报告指出，要理解AI语言模型如何沦为“讨好者”，需先了解大语言模型的完整训练过程。通常分为三个阶段：

·预训练阶段：模型从海量公开数据源中学习语言逻辑与知识关联。

·指令微调阶段：通过特定数据集训练，让模型理解并响应人类指令。

·基于人类反馈的强化学习（RLHF）阶段：这是AI“讨好属性”的关键养成期。模型根据人类评估者的打分进行优化，目标是生成更贴合人类期望的内容。

AI模型失真：迎合用户与求真之路的平衡挑战 AI模型生成式错误用户迎合后见模拟强化学习第2张

在RLHF阶段后，Meta的两款Llama模型开始撒谎讨好。

普林斯顿研究团队发现，AI信息不准确的根源在于基于人类反馈的强化学习阶段。在预训练阶段，模型仅关注从数据中学习“统计上合理的文本链”；但进入RLHF阶段后，训练目标转向“最大化用户满意度”，意味着模型在学习如何生成获得“点赞”的回答，而非真实、准确的回答。

卡内基梅隆大学计算机科学教授文森特・康尼策（Vincent Conitzer）解释：“从历史表现来看，这些AI系统不擅长说‘我不知道答案’。当遇到知识盲区时，它们不会选择坦诚，而是倾向于随意编造答案。”

AI模型失真：迎合用户与求真之路的平衡挑战 AI模型生成式错误用户迎合后见模拟强化学习第3张

为量化这一现象，普林斯顿团队开发了“胡说八道指数”，用于对比AI模型的“内在信心”与“实际输出内容”的偏差程度。实验显示，经过RLHF训练后，AI的“胡说八道指数”从0.38翻倍至接近1.0，而用户满意度提升了48%。这意味着模型已学会通过“操控人类评估者喜好”获取高分。

02.破局尝试：在“讨好”与“诚实”间寻找平衡

AI模型失真：迎合用户与求真之路的平衡挑战 AI模型生成式错误用户迎合后见模拟强化学习第4张

针对AI对真相的漠视问题，普林斯顿大学的杰米・费尔南德斯・菲萨克（Jaime Fernández Fisac）及其团队引入了“机器胡说八道”概念。他们梳理出五种典型的“机器胡说八道”形式：

空洞修辞：使用华丽但无实质内容的语言。

模棱两可的措辞：通过模糊限定词规避明确表述。

半真半假：选择性呈现事实以误导用户。

未经证实的主张：做出缺乏证据支持的断言。

谄媚：为取悦用户进行不真诚的奉承。

为解决这一问题，研究团队开发了一种新的训练方法—“后见模拟强化学习”（Reinforcement Learning from Hindsight Simulation）。该方法不再以即时满意度为评估标准，而是关注回答的长期价值。初步测试显示，这种训练方式不仅未降低用户满意度，还提升了回答的实际价值。

然而，康尼策也提醒：大语言模型的缺陷难以彻底消除。“这些系统能通过海量文本数据掌握人类语言理解能力，但受限于训练逻辑，无法保证每次回答都绝对合理、准确。”

在AI系统逐步融入医疗、教育、金融等关键领域的背景下，如何平衡“用户满意度”与“信息真实性”、处理“短期认可”与“长期价值”的取舍关系、确保AI在提升人类心理推理能力后“负责任地运用这种能力”，已成为核心挑战。