当前位置：首页 > 科技资讯 > 正文

AI幻觉与推理模型：探索、挑战与未来

AI幻觉与推理模型：探索、挑战与未来 AI幻觉推理模型强化学习奖励函数第1张

近期，网络上发生了一场由AI幻觉引发的争议。

7月2日，网络上突然出现大量关于“DeepSeek向王一博道歉”的虚假内容，最终被证实是DeepSeek在对话中虚构了事件，甚至引用了一份在中国裁判文书网上完全查不到的判决书。

这一事件揭示了AI大模型在幻觉率方面的激增问题。知危编辑部认为，有必要深入探讨一下这个问题。

前段时间，OpenAI发布的o3模型也因为幻觉率“不降反升”的现象引发了广泛关注。o3模型会犯许多匪夷所思的错误，比如捏造从未运行过的代码，使用无效的非ASCII破折号，甚至假装自己在调用工具。

在PersonQA基准测试中，o3在33%的问答中会出现幻觉，几乎是o1（16%）的两倍，而o4-mini的幻觉率更是高达48%，远高于此前发布的推理模型。

斯坦福大学团队总结了这些怪异行为的类型，包括跳过中间关键步骤、代入特殊数值猜测一般规律等。研究团队发现，Grok3 mini的最终答案正确率达71.5%，但推理过程正确率仅为6.0%。

上海交通大学计算机系教授张伟楠表示，o3被强化学习过度优化导致幻觉增加，说明人类不知道自己想要什么。他解释说，强化学习可以优化大模型在某些任务（如数学和代码）的性能，但这些能力提升后，人们又开始关注其幻觉问题。

天津大学智算学部教授郝建业也同意问题根源在于强化学习。他表示，强化学习的学习范式主要在最终结果是否正确上给出奖励，而大模型本身的推理过程是一个多步决策过程。这可能导致模型学到的最终结果是正确的，但中间的推理过程是错误的。

伦敦大学学院计算机系教授汪军表示，现在的强化学习方法存在很多问题，其中一个问题是模型的思考过程没有被正则化或规整。他通过实验研究指出，当模型尝试最大化奖励而忽略思考过程的规范性时，其推理的逻辑不一定是对的。

张伟楠教授进一步解释，这类推理模型的训练中使用的数据可能包含了相当一部分大模型通过强化学习与环境交互得出的CoT（思维链）数据。但这些思维链的具体过程在语句、语法、自然语言层面是否标准或优雅并不被关注。

郝建业教授强调，设计合理的奖励函数是强化学习方法中最关键的一点。奖励模型可分为结果级（ORM）和过程级（PRM），ORM容易让模型通过错误的推理路径得到正确答案，因此有必要引入PRM来监督推理过程。

汪军教授表示，未来训练一个大语言模型，最终的奖励函数设计可能更像一个评论家，给出相关的文字性、非结构化的反馈。基于这样的language feedback来调整策略是完全可以做到的。

尽管面临很多质疑，大模型推理的未来潜力依然备受期待。张伟楠教授认为，大语言模型是可以学会真正的逻辑推理的。他对此持乐观态度，认为人脑在做逻辑推理时也存在一定的随机性。

最后，再次回到o3的推理幻觉问题上，张伟楠教授的态度是积极的。他表示，奖励函数设计的困境只是暂时的，未来肯定会得到改善。

本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260436965.html