尽管GPT-5未能实现业界期望的“飞跃”,但其幻觉率的大幅下降却成为一大亮点。
OpenAI的数据显示,GPT-5出现事实错误的概率比GPT-4低约45%,比OpenAI o3低约80%。
然而,这一提升背后的原因一直未公开。System Card中,OpenAI将此归功于强化学习训练,并提到使用了最新训练方法,让模型学会“完善思考过程、尝试不同策略并认识错误”,但具体方法仍成谜。
9月4日,OpenAI发布了一篇论文《语言模型为何会产生幻觉》,尽管未公开所有技术细节,但结合这篇论文和已发布的技术文档,我们可以窥见其核心思路。
幻觉的不可避免性并非新论,但过往研究多聚焦于训练数据问题,而非模型机制本身。OpenAI新论文则证明:“幻觉”是LLM统计学习本质下的必然副产品。
其论证逻辑简单:生成可靠信息比判断可靠性更难,而判断本身亦会失败。
论文定义了语言模型自回归预测的“内在判断力”,通过逐词预测和条件概率连乘得出总概率值。基于此,研究人员提出了“是否有效”(IIV)判断器:内部概率高于设定阈值的句子为“有效”,反之则为“无效”。
但此“判断器”并非永远可靠。处理灰色信息时,它会出错。论文列举了多种导致判断失效的场景,包括数据稀疏、模型能力不足、计算复杂等。
对于不可避免的判断错误,论文给出了数学结论:(生成模型错误率)≥ 2 ×(IIV判断器错误率)。即一个错误判断会导致至少两种幻觉。
结论清晰:只要训练数据中存在长尾、稀疏和噪声部分,模型在判断层面就必然失败。每个错误判断都会被放大并传导至生成任务中,因此幻觉不可避免。
后训练并非完全无效。OpenAI在论文中提出了校准概念。
预训练模型中,词的概率分布完全依据训练材料产生,这意味着自信程度反映了训练数据中的真实情况。为了最小化损失函数,模型自然会被校准。
但这会产生平原效应,即模型面对多个选项的自信度都很大,容易越过IIV判断器的阈值,从而产生幻觉。
后训练通过明确偏好反馈改变概率分布,形成陡峭的概率峰。这减少了“因不确定而猜测”的幻觉,但也增加了“过度自信”的风险。
后训练的重点是减少过度自信,让模型能说出“我不知道”。但当前主流评估基准采用二元评分制,导致不确定性被系统性惩罚。
这种评分机制鼓励模型“虚张声势”,而非学习如何校准不确定性。因此,后训练在技术上有效,但在实践中未得到正确引导。
尽管文章未深入后训练细节,但其结论在RL领域仍具合理性。推论是:二元奖励路径的RL过程会降低模型抑制幻觉的能力。
强化学习的核心是奖励模型指导模型行为。若奖励模型采用极端二元评分(如“好答案”+1/“坏答案”-1),会导致以下问题:
这复现了论文在Benchmark的缺陷:二元奖励路径会从根源上鼓励模型“虚张声势”,惩罚不确定性表达。
目前主流奖励模型有两种:
而GPT-5可能引入了Universal Verifier技术,超越原来的可验证的对错二元评价标准。这也许是其低幻觉率的诀窍。
研究者提议在后训练阶段引入带惩罚的评分机制,迫使模型从“得分优化器”转变为“风险评估器”。只有当确信度足够高时才敢于回答。
本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440986.html