随着GPT-5的推出,尽管其整体性能未能达到业界期待的“飞跃”,但幻觉率的显著降低成为了最引人注目的亮点。
OpenAI公布的数据显示,GPT-5出现事实错误的概率比GPT-4o降低了约45%,相比OpenAI o3则下降了约80%。
然而,这一改进背后的具体原因一直未公开。在System Card中,OpenAI将其归功于强化学习训练,似乎采用了前沿方法,让模型学会“完善思考过程、尝试不同策略并识别自身错误”,但技术细节仍不明确。
9月4日,OpenAI发布了久违的论文《语言模型为何会产生幻觉》(Why Language Models Hallucinate)。
尽管OpenAI未完全公开技术细节,但结合这篇官方论文和现有文档,我们可以洞察其核心思路。
幻觉不可避免的结论并不新鲜,但以往研究多关注训练数据,少从语言模型机制出发。
OpenAI的新论文证明:“幻觉”是LLM统计学习本质下必然产生、可预测的副产品。
其论证逻辑简单:生成可靠信息比判断是否可靠更难,而判断本身必有失败之处。
首先,论文基于语言模型自回归预测特性,定义了内在“判断力”。
模型评估句子时,通过逐词预测将条件概率连乘,得到总概率值,反映句子与模型所学统计规律的符合程度。基于此,研究人员提出理论上的“是否有效”(Is-It-Valid, IIV)判断器:句子内部概率高于设定阈值时判为“有效”,否则为“无效”。
简言之,模型生成的话“看起来熟悉、流畅”则“有效”,反之无效。
但这一理论判断器并非永远可靠。处理“陌生又似曾相识”的灰色信息时,它必然出错。论文列举了多种失效场景:数据稀疏(如“孤例”事实)导致模型猜测;模型能力不足以理解复杂概念;以及计算复杂、数据分布偏移和训练数据本身错误(垃圾进,垃圾出)等。
对于这种不可避免的“判断错误”的后果,论文给出严格数学结论:(生成模型的错误率)≥ 2 ×(IIV 判断器的错误率)。
放大效应根源在于,判断层面的一个错误会导致至少两种幻觉。例如,对于1+1,模型若错误判断为等于3,则衍生出两种幻觉:一是1+1=3,二是1+1不等于2,均源于同一错误判断。
因此,结论清晰:只要训练数据中不可避免存在长尾、稀疏和噪声部分,模型判断层面必然失败。判断中的每个错误都会被放大并传导至生成任务,使生成中的幻觉也不可避免。
对人类而言,幻觉也几乎不可避免。我们常有不确定之事,但人类有“知之为知之,不知为不知”的智慧,对不确定可选择说不知道。
对于模型,对齐过程本应教会它们“不知为不知”,例如提高内部类似IIV的“有效性判别器”阈值,或突出更可能答案。
但OpenAI论文后半部分证明,在当前评估体系下,后训练在这方面未能有效工作。
后训练并非完全无效。论文中,OpenAI引入了校准概念。
在预训练模型中,词的概率分布完全基于训练材料生成,其自信程度基本反映训练数据真实情况。为最小化损失函数,模型在预训练中会自然校准。
但这产生“平原效应”:模型面对许多选项时,自信度都较高,能越过IIV判断器阈值,从而容易产生幻觉。
后训练过程通过明确偏好反馈(例如,人类更偏好答案A而非B、C、D)强行改变这片平坦概率荒原。
这导致模型“非校准”,使概率分布更集中。模型被教导将绝大部分概率集中到“最佳”答案上,形成陡峭山峰。同时,其他曾看似合理的选项(B、C、D等)概率被极大压制,远低于IIV判断阈值。
通过这种方式,模型不再需要在多个弱选项间猜测,因为它被明确告知应选择哪座“山峰”。当这座山峰恰好是正确答案时,模型便成功克服因不确定性导致的幻觉,幻觉率因此降低。
然而这种“非校准”是一把双刃剑。它在减少“因不确定而猜测”的幻觉的同时,也可能增加“过度自信”风险。
后训练的一个重要方向是减少这种过度自信,让模型能够说“我不知道”。
但目前广泛用于评估AI模型能力的主流基准,如GPQA3、MMLU-Pro和SWE-bench,普遍采用“二元评分制”。在这些Benchmark中,答案仅被简单判定为“正确”(得1分)或“错误”(得0分)。
这种评分机制带来严重问题:系统性地惩罚不确定性。当模型面对没有把握的问题时,若诚实回答“我不知道”(IDK)或拒绝回答,得分为0,与直接给出错误“最佳猜测”答案相同。在这种规则下,放弃回答是“蠢”策略,而毫无根据的“虚张声势”反而成为追求高分的理性选择。
因此,在当前以跑分取胜、彰显模型实力的训练中,让模型诚实回答“我不知道”反而是吃力不讨好的事。
所以,后训练过程对消除幻觉在技术底层有效,但在实践上未被引导。当前行业评估标准正系统性地奖励产生幻觉的行为。只要这种“惩罚诚实、奖励猜测”的评估范式不变,幻觉问题将继续成为阻碍AI系统迈向更高可靠性的顽固障碍。
虽然文章未深入后训练细节,仅批判了对错二元的benchmark,但将其应用于RL领域,结论仍具合理性。
推论是:如果强化学习(RL)过程采用二元奖励路径,它极可能导致模型抑制幻觉的能力降低。
强化学习的核心是通过“奖励模型”指导语言模型行为。语言模型生成回答,奖励模型打分,语言模型根据分数调整策略以寻求更高分。
若奖励模型采用极端二元评分(如“好答案”+1/“坏答案”-1),会导致:
● 事实性错误答案,得-1分。
● 诚实但无帮助的答案,同样得-1分。
这就复现了论文中Benchmark的缺陷:采用二元奖励路径的RL流程,会从训练根源上鼓励模型“虚张声势”。它不鼓励模型学习校准不确定性,反而惩罚不确定性的表达。
目前主流的奖励模型有两种。
一种是ORM(结果奖励模型),它基本符合上述假设。以使用ORM的DeepSeek R1为例,其奖励模型基于两个路径:最终答案是否正确和格式是否正确。这是一个极端的二元路径。只要最终答案正确,就给高分。
这种更强化二元路径的后训练,可能在减少“犹豫型”幻觉的同时,增加“顽固型”或“过度自信型”幻觉。由于这些自信性幻觉更顽固,整体幻觉率可能反而推高。
这或许解释了DeepSeek R1发布后面临的幻觉挑战。在Vectara HHEM幻觉测试中,其幻觉率高达3.9%,远高于预训练模型DeepSeek V3。
而使用PRM(过程奖励模型)的模型,如同期的OpenAI o3,其幻觉率仅为6.8%,未及DeepSeek R1的一半。
这是因为PRM会审查模型的“思路”(如思维链),当发现某一步推理基于捏造事实时,就在该步给予负反馈。这迫使模型学会忠于事实推理。尽管过程中仍依赖“好/坏”或“对/错”判断,具有二元形式。
对于GPT-5,根据The Information爆料,它可能引入了Universal Verifier技术,以超越传统的对错二元评价标准。例如,采用热门的Rubric(评分细则)方法,让另一个“验证模型”基于复杂、非二元标准(如事实性、逻辑性、细微差别)打分。这将从根本上瓦解二元激励对强化学习的负面影响。
这或许是GPT-5实现极低幻觉率的诀窍。
当然,这一切可能还不够。论文最后,研究者建议在后训练阶段引入带惩罚的评分机制。
该机制会在指令中明确告知模型过度自信的代价(例如,答对得1分,答错得-1,过度自信答错扣9分,不答得0分),迫使模型从单纯的“得分优化器”转变为“风险评估器”。它必须精确校准自身置信度,只有确信度足够高时才敢回答。
也许只有当模型不只专注于得分,而是专注于真实时,幻觉问题才有可能真正解决。
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213854.html