当前位置：首页 > 科技资讯 > 正文

GPT-5的幻觉率奇迹：后训练与评估机制的探索

尽管GPT-5未能实现业界期望的“飞跃”，但其幻觉率的大幅下降却成为一大亮点。

OpenAI的数据显示，GPT-5出现事实错误的概率比GPT-4低约45%，比OpenAI o3低约80%。

GPT-5的幻觉率奇迹：后训练与评估机制的探索 GPT-5 幻觉率后训练评估机制第1张

然而，这一提升背后的原因一直未公开。System Card中，OpenAI将此归功于强化学习训练，并提到使用了最新训练方法，让模型学会“完善思考过程、尝试不同策略并认识错误”，但具体方法仍成谜。

9月4日，OpenAI发布了一篇论文《语言模型为何会产生幻觉》，尽管未公开所有技术细节，但结合这篇论文和已发布的技术文档，我们可以窥见其核心思路。

GPT-5的幻觉率奇迹：后训练与评估机制的探索 GPT-5 幻觉率后训练评估机制第2张

01 幻觉产生，在预训练阶段是不可避免的

幻觉的不可避免性并非新论，但过往研究多聚焦于训练数据问题，而非模型机制本身。OpenAI新论文则证明：“幻觉”是LLM统计学习本质下的必然副产品。

其论证逻辑简单：生成可靠信息比判断可靠性更难，而判断本身亦会失败。

论文定义了语言模型自回归预测的“内在判断力”，通过逐词预测和条件概率连乘得出总概率值。基于此，研究人员提出了“是否有效”（IIV）判断器：内部概率高于设定阈值的句子为“有效”，反之则为“无效”。

但此“判断器”并非永远可靠。处理灰色信息时，它会出错。论文列举了多种导致判断失效的场景，包括数据稀疏、模型能力不足、计算复杂等。

GPT-5的幻觉率奇迹：后训练与评估机制的探索 GPT-5 幻觉率后训练评估机制第3张

对于不可避免的判断错误，论文给出了数学结论：（生成模型错误率）≥ 2 ×（IIV判断器错误率）。即一个错误判断会导致至少两种幻觉。

结论清晰：只要训练数据中存在长尾、稀疏和噪声部分，模型在判断层面就必然失败。每个错误判断都会被放大并传导至生成任务中，因此幻觉不可避免。

后训练并非完全无效。OpenAI在论文中提出了校准概念。

预训练模型中，词的概率分布完全依据训练材料产生，这意味着自信程度反映了训练数据中的真实情况。为了最小化损失函数，模型自然会被校准。

但这会产生平原效应，即模型面对多个选项的自信度都很大，容易越过IIV判断器的阈值，从而产生幻觉。

GPT-5的幻觉率奇迹：后训练与评估机制的探索 GPT-5 幻觉率后训练评估机制第4张

后训练通过明确偏好反馈改变概率分布，形成陡峭的概率峰。这减少了“因不确定而猜测”的幻觉，但也增加了“过度自信”的风险。

后训练的重点是减少过度自信，让模型能说出“我不知道”。但当前主流评估基准采用二元评分制，导致不确定性被系统性惩罚。

GPT-5的幻觉率奇迹：后训练与评估机制的探索 GPT-5 幻觉率后训练评估机制第5张

这种评分机制鼓励模型“虚张声势”，而非学习如何校准不确定性。因此，后训练在技术上有效，但在实践中未得到正确引导。

尽管文章未深入后训练细节，但其结论在RL领域仍具合理性。推论是：二元奖励路径的RL过程会降低模型抑制幻觉的能力。

强化学习的核心是奖励模型指导模型行为。若奖励模型采用极端二元评分（如“好答案”+1/“坏答案”-1），会导致以下问题：

这复现了论文在Benchmark的缺陷：二元奖励路径会从根源上鼓励模型“虚张声势”，惩罚不确定性表达。

目前主流奖励模型有两种：

ORM(结果奖励模型)：如DeepSeek R1，其奖励模型由两个路径构成，只要最终答案正确就给高分。这种更强化二元性路径的后训练可能增加“顽固型”或“过度自信型”的幻觉。
PRM（过程奖励模型）：如OpenAI o3，其幻觉率仅为6.8%。PRM会审查模型的“思路”，当发现某一步推理基于捏造事实时就会给予负反馈。

GPT-5的幻觉率奇迹：后训练与评估机制的探索 GPT-5 幻觉率后训练评估机制第6张