当前位置:首页 > 科技资讯 > 正文

GPT-5的幻觉率奇迹:后训练与评估机制的探索

尽管GPT-5未能实现业界期望的“飞跃”,但其幻觉率的大幅下降却成为一大亮点。

OpenAI的数据显示,GPT-5出现事实错误的概率比GPT-4低约45%,比OpenAI o3低约80%。

GPT-5的幻觉率奇迹:后训练与评估机制的探索 GPT-5 幻觉率 后训练 评估机制 第1张

然而,这一提升背后的原因一直未公开。System Card中,OpenAI将此归功于强化学习训练,并提到使用了最新训练方法,让模型学会“完善思考过程、尝试不同策略并认识错误”,但具体方法仍成谜。

9月4日,OpenAI发布了一篇论文《语言模型为何会产生幻觉》,尽管未公开所有技术细节,但结合这篇论文和已发布的技术文档,我们可以窥见其核心思路。

GPT-5的幻觉率奇迹:后训练与评估机制的探索 GPT-5 幻觉率 后训练 评估机制 第2张

01 幻觉产生,在预训练阶段是不可避免的

幻觉的不可避免性并非新论,但过往研究多聚焦于训练数据问题,而非模型机制本身。OpenAI新论文则证明:“幻觉”是LLM统计学习本质下的必然副产品。

其论证逻辑简单:生成可靠信息比判断可靠性更难,而判断本身亦会失败。

论文定义了语言模型自回归预测的“内在判断力”,通过逐词预测和条件概率连乘得出总概率值。基于此,研究人员提出了“是否有效”(IIV)判断器:内部概率高于设定阈值的句子为“有效”,反之则为“无效”。

但此“判断器”并非永远可靠。处理灰色信息时,它会出错。论文列举了多种导致判断失效的场景,包括数据稀疏、模型能力不足、计算复杂等。

GPT-5的幻觉率奇迹:后训练与评估机制的探索 GPT-5 幻觉率 后训练 评估机制 第3张

对于不可避免的判断错误,论文给出了数学结论:(生成模型错误率)≥ 2 ×(IIV判断器错误率)。即一个错误判断会导致至少两种幻觉。

结论清晰:只要训练数据中存在长尾、稀疏和噪声部分,模型在判断层面就必然失败。每个错误判断都会被放大并传导至生成任务中,因此幻觉不可避免。

02 后训练,未能有效地抑制幻觉

后训练并非完全无效。OpenAI在论文中提出了校准概念。

预训练模型中,词的概率分布完全依据训练材料产生,这意味着自信程度反映了训练数据中的真实情况。为了最小化损失函数,模型自然会被校准。

但这会产生平原效应,即模型面对多个选项的自信度都很大,容易越过IIV判断器的阈值,从而产生幻觉。

GPT-5的幻觉率奇迹:后训练与评估机制的探索 GPT-5 幻觉率 后训练 评估机制 第4张

后训练通过明确偏好反馈改变概率分布,形成陡峭的概率峰。这减少了“因不确定而猜测”的幻觉,但也增加了“过度自信”的风险。

后训练的重点是减少过度自信,让模型能说出“我不知道”。但当前主流评估基准采用二元评分制,导致不确定性被系统性惩罚。

GPT-5的幻觉率奇迹:后训练与评估机制的探索 GPT-5 幻觉率 后训练 评估机制 第5张

这种评分机制鼓励模型“虚张声势”,而非学习如何校准不确定性。因此,后训练在技术上有效,但在实践中未得到正确引导。

03 GPT-5可能的幻觉杀手锏与DeepSeek R1的短板

尽管文章未深入后训练细节,但其结论在RL领域仍具合理性。推论是:二元奖励路径的RL过程会降低模型抑制幻觉的能力。

强化学习的核心是奖励模型指导模型行为。若奖励模型采用极端二元评分(如“好答案”+1/“坏答案”-1),会导致以下问题:

  • 事实性错误答案得-1分
  • 诚实但无帮助的答案同样得-1分

这复现了论文在Benchmark的缺陷:二元奖励路径会从根源上鼓励模型“虚张声势”,惩罚不确定性表达。

目前主流奖励模型有两种:

  • ORM(结果奖励模型):如DeepSeek R1,其奖励模型由两个路径构成,只要最终答案正确就给高分。这种更强化二元性路径的后训练可能增加“顽固型”或“过度自信型”的幻觉。
  • PRM(过程奖励模型):如OpenAI o3,其幻觉率仅为6.8%。PRM会审查模型的“思路”,当发现某一步推理基于捏造事实时就会给予负反馈。

GPT-5的幻觉率奇迹:后训练与评估机制的探索 GPT-5 幻觉率 后训练 评估机制 第6张

而GPT-5可能引入了Universal Verifier技术,超越原来的可验证的对错二元评价标准。这也许是其低幻觉率的诀窍。

研究者提议在后训练阶段引入带惩罚的评分机制,迫使模型从“得分优化器”转变为“风险评估器”。只有当确信度足够高时才敢于回答。