当前位置：首页 > 科技资讯 > 正文

OpenAI架构重组揭示AI幻觉本质：评测体系成关键

主机测评网
科技资讯
2025-12-29
588

【新智元深度解读】OpenAI迎来重大组织变革：ChatGPT的「模型行为」团队正式整合至后训练部门，原负责人Joanne Jang转而领导新成立的OAI实验室。这一调整背后，源自一项突破性发现：当前评估标准无形中奖励模型的「幻觉」行为，迫使AI沦为「应试工具」。一次团队重组与评测范式的重塑，或许正重新勾勒AI的能力边界与产品演进方向。

9月6日，OpenAI正式宣布重组ChatGPT「个性化」研究团队！

这支约14人的小组，规模虽小却肩负重任——他们负责塑造GPT模型与人类交互的行为方式。

据内部消息透露，模型行为团队将直接并入后训练团队，并向后训练负责人Max Schwarzer汇报工作。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第1张

团队前负责人Joanne Jang，将从头筹建新实验室「OAI Labs」——致力于为人类与AI的协作，发明并原型化全新的交互界面。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第2张

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第3张

与此同时，OpenAI罕见发布一篇论文揭秘——导致AI产生「幻觉」的根源，竟在于人类自身！

整个行业为追逐排行榜高分而设计的「应试」评估体系，促使AI宁愿猜测答案，也不愿坦诚回应「我不知道」。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第4张

论文地址：https://openai.com/index/why-language-models-hallucinate/

超现实的一日

模型行为团队几乎参与了GPT-4之后所有模型的研发，包括GPT-4o、GPT-4.5以及GPT-5。

上周，作为Model Behavior团队负责人的Joanne Jang，入选《时代》百大AI人物榜单的「思想家」类别，排名超越图灵奖得主、深度学习巨头Yoshua Bengio、谷歌首席科学家Jeffrey Dean等知名人物。

就在同一天，OpenAI决定将她调离原团队，转而负责一个全新方向。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第5张

对她而言，那天的确充满「超现实」感。

Joanne Jang认为，她的工作核心在于「助力用户达成目标」，但前提是不造成伤害或限制他人自由。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第6张

她直言：AI实验室的员工不应成为裁决人们创作内容的仲裁者。

开启新旅程：瞄准下一代AI交互

Joanne Jang发文宣布她的新职位：发明并原型化全新交互界面，探索人与AI协作的未来模式。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第7张

她将从头负责新实验室「OAI Labs」：一个以研究为导向的团队，专注于为人类与AI的协作方式，发明和构建新界面原型。

借此平台，她将探索超越聊天、甚至超越智能体的新模式——迈向能够用于思考、创造、娱乐、学习、连接与实践的全新范式与工具。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第8张

这令她无比振奋，也是过去四年在OpenAI她最热爱的工作：

将前沿技术转化为面向全球的产品，并与才华横溢的同事共同打磨落地。

从DALL·E 2、标准语音模式，到GPT-4与模型行为，她在OpenAI的职责涵盖多样化个性与交互方式。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第9张

她收获颇丰，感悟深刻：

设计一个界面，竟能如此激发人们突破想象边界。

在接受采访时，她坦言，目前仍处早期阶段，究竟会探索出哪些全新交互界面，尚无明确答案。

她表示：「我非常兴奋能探索一些突破「聊天」范式的模式。聊天当前更多关联陪伴；而「智能体」则强调自主性。」

「但我更愿将AI系统视为思考、创造、游戏、实践、学习和连接的工具。」

OpenAI的模型行为研究员，负责设计与开发评测体系，横跨多个环节：

对齐、训练、数据、强化学习以及后训练等。

除了研究本身，模型行为研究员还需具备产品敏锐度，以及对经典AI对齐问题的深入理解。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第10张

OpenAI对模型行为研究员的经验要求

在过往招聘中，OpenAI称：模型即产品，而评测体系是模型的灵魂。

但OpenAI最新研究显示：评测体系从根本上塑造模型行为。

在论文中，研究人员得出结论：

实际上，多数主流评测在奖励幻觉行为。只需对这些主流评测进行简单调整，就能重新校准激励机制，让模型在表达不确定性时获得奖励，而非惩罚。

这种方式不仅能消除抑制幻觉的障碍，还为未来更具语用细微能力的语言模型开启新可能。

这一发现对OpenAI至关重要：评测体系直接左右LLM的能力发展。

据报道，在发给员工的备忘录中，OpenAI首席科学家Mark Chen指出，将模型行为进一步融入核心模型研发，当前正是良机。

我们亲手让AI学会了一本正经地虚构答案

近期，OpenAI研究员进行了一项有趣测试。

他们先提问一个主流AI机器人：「Adam Tauman Kalai（论文一作）的博士论文题目是什么？」

机器人自信地给出三个不同答案，但无一正确。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第11张

接着他们又问：「Adam Tauman Kalai的生日是哪天？」

这次机器人依旧给出三个不同日期，同样全错。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第12张

为求高分，AI被迫「随机猜测」作答

以上示例生动展示了「模型幻觉」——即AI生成那些看似合理、实则虚构的回应。

在最新研究中，OpenAI指出：

模型产生幻觉，源于标准训练与评估程序奖励猜测行为，而非鼓励模型承认不确定性。

简言之，我们在评估AI时设定了错误激励导向。

虽然评估本身不直接引发幻觉，但多数评估方法促使模型猜测答案，而非诚实表明不确定。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第13张

这宛如一场充斥选择题的「应试教育」。

若AI遇到难题选择留白，必然得零分；而随意猜测，总有蒙对概率。

在积累海量题目后，热衷「蒙答案」的AI，会比遇难题时表示「不知道」的AI得分更高。

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第14张

当前行业主流，正以这种「唯准确率论」排行榜评判模型优劣。

这无形中鼓励所有开发者训练更会「猜」而非更「诚实」的模型。

这就是为何即便模型日益先进，它们仍会产生幻觉。

为更直观感受，我们查看OpenAI在GPT-5系统卡中公布的对比数据：

OpenAI架构重组揭示AI幻觉本质：评测体系成关键 OpenAI AI幻觉模型行为评测体系第15张

从数据可发现：

在准确率上，旧模型o4-mini得分更高（24% vs 22%）。

但代价是，几乎从不弃权（1%）的o4-mini，错误率（幻觉率）飙至75%。

相比之下，新模型gpt-5-thinking-mini表现更「谨慎」，它在52%情况下选择不回答，从而将错误率控制在26%。

幻觉源于「下一个token预测」机制

除评估体系导向问题，幻觉产生还与大型语言模型的学习机制紧密相关。

通过「下一个token预测」，模型掌握语法、语感与常识关联，但其短板正体现于此。

对于高频、有规律知识，如语法、拼写，模型能通过规模扩大消解误差。

对于低频、任意事实，如生日、论文标题，模型则无法从模式中准确预测。

理想情况下，这些幻觉应在模型预训练完成后环节消除。

但正如前文所述，由于评估机制影响，这一目标未完全实现。

如何教会AI「适时放弃」？

对此，OpenAI建议：

应严惩「自信犯错」，并为「诚实承认不确定性」给予加分。

类似考试中「答错扣分」机制。

这不仅需通过新增评测来「补全」，更要更新所有依赖准确率的主流评估体系。

最后，OpenAI集中回应关于幻觉的常见误解：

误解1：幻觉可通过100%准确率根除。

发现：准确率永难达100%。因真实世界中，许多问题因信息不足或本身模糊而无法回答。

误解2：幻觉不可避免。

发现：并非如此。模型完全可在不确定时选择「弃权」，从而避免幻觉。

误解3：仅更大模型能避免幻觉。

发现：有时，小模型反更易认识自身局限。让模型准确评估「置信度」（即实现「校准」），比令其无所不知更易达成。

误解4：幻觉是神秘、偶然的系统故障。

发现：我们已理解幻觉产生的统计学机制，及现有评估体系如何无意「奖励」该行为。

误解5：衡量幻觉仅需一个好评测。

发现：幻觉评测早已存在。但在数百个奖励猜测的传统基准评测面前，单一好评测收效甚微。正确做法是重新设计所有主流评估，加入对模型表达不确定性行为的奖励。

参考资料：

https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/

https://openai.com/index/why-language-models-hallucinate/

性价比服务器性价比vps 免费vps

本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20251213679.html

OpenAI架构重组揭示AI幻觉本质：评测体系成关键

超现实的一日

开启新旅程：瞄准下一代AI交互

我们亲手让AI学会了一本正经地虚构答案

为求高分，AI被迫「随机猜测」作答

幻觉源于「下一个token预测」机制

如何教会AI「适时放弃」？

全球AI巨头深陷版权侵权诉讼风暴：行业法律边界重塑与合规挑战

C++ chrono库详解（从零开始掌握C++高精度时间处理与计时技巧）

OpenAI架构重组揭示AI幻觉本质：评测体系成关键

超现实的一日

开启新旅程：瞄准下一代AI交互

我们亲手让AI学会了一本正经地虚构答案

为求高分，AI被迫「随机猜测」作答

幻觉源于「下一个token预测」机制

如何教会AI「适时放弃」？

全球AI巨头深陷版权侵权诉讼风暴：行业法律边界重塑与合规挑战

C++ chrono库详解（从零开始掌握C++高精度时间处理与计时技巧）

相关文章