当前位置:首页 > 科技资讯 > 正文

OpenAI架构重组揭示AI幻觉本质:评测体系成关键

【新智元深度解读】OpenAI迎来重大组织变革:ChatGPT的「模型行为」团队正式整合至后训练部门,原负责人Joanne Jang转而领导新成立的OAI实验室。这一调整背后,源自一项突破性发现:当前评估标准无形中奖励模型的「幻觉」行为,迫使AI沦为「应试工具」。一次团队重组与评测范式的重塑,或许正重新勾勒AI的能力边界与产品演进方向。

9月6日,OpenAI正式宣布重组ChatGPT「个性化」研究团队!

这支约14人的小组,规模虽小却肩负重任——他们负责塑造GPT模型与人类交互的行为方式。

据内部消息透露,模型行为团队将直接并入后训练团队,并向后训练负责人Max Schwarzer汇报工作。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第1张

团队前负责人Joanne Jang,将从头筹建新实验室「OAI Labs」——致力于为人类与AI的协作,发明并原型化全新的交互界面。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第2张

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第3张

与此同时,OpenAI罕见发布一篇论文揭秘——导致AI产生「幻觉」的根源,竟在于人类自身!

整个行业为追逐排行榜高分而设计的「应试」评估体系,促使AI宁愿猜测答案,也不愿坦诚回应「我不知道」。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第4张

论文地址:https://openai.com/index/why-language-models-hallucinate/

超现实的一日

模型行为团队几乎参与了GPT-4之后所有模型的研发,包括GPT-4o、GPT-4.5以及GPT-5。

上周,作为Model Behavior团队负责人的Joanne Jang,入选《时代》百大AI人物榜单的「思想家」类别,排名超越图灵奖得主、深度学习巨头Yoshua Bengio、谷歌首席科学家Jeffrey Dean等知名人物。

就在同一天,OpenAI决定将她调离原团队,转而负责一个全新方向。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第5张

对她而言,那天的确充满「超现实」感。

Joanne Jang认为,她的工作核心在于「助力用户达成目标」,但前提是不造成伤害或限制他人自由。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第6张

她直言:AI实验室的员工不应成为裁决人们创作内容的仲裁者。

开启新旅程:瞄准下一代AI交互

Joanne Jang发文宣布她的新职位:发明并原型化全新交互界面,探索人与AI协作的未来模式。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第7张

她将从头负责新实验室「OAI Labs」:一个以研究为导向的团队,专注于为人类与AI的协作方式,发明和构建新界面原型。

借此平台,她将探索超越聊天、甚至超越智能体的新模式——迈向能够用于思考、创造、娱乐、学习、连接与实践的全新范式与工具。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第8张

这令她无比振奋,也是过去四年在OpenAI她最热爱的工作:

将前沿技术转化为面向全球的产品,并与才华横溢的同事共同打磨落地。

从DALL·E 2、标准语音模式,到GPT-4与模型行为,她在OpenAI的职责涵盖多样化个性与交互方式。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第9张

她收获颇丰,感悟深刻:

设计一个界面,竟能如此激发人们突破想象边界。

在接受采访时,她坦言,目前仍处早期阶段,究竟会探索出哪些全新交互界面,尚无明确答案。

她表示:「我非常兴奋能探索一些突破「聊天」范式的模式。聊天当前更多关联陪伴;而「智能体」则强调自主性。」

「但我更愿将AI系统视为思考、创造、游戏、实践、学习和连接的工具。」

OpenAI的模型行为研究员,负责设计与开发评测体系,横跨多个环节:

对齐、训练、数据、强化学习以及后训练等。

除了研究本身,模型行为研究员还需具备产品敏锐度,以及对经典AI对齐问题的深入理解。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第10张

OpenAI对模型行为研究员的经验要求

在过往招聘中,OpenAI称:模型即产品,而评测体系是模型的灵魂。

但OpenAI最新研究显示:评测体系从根本上塑造模型行为。

在论文中,研究人员得出结论:

实际上,多数主流评测在奖励幻觉行为。只需对这些主流评测进行简单调整,就能重新校准激励机制,让模型在表达不确定性时获得奖励,而非惩罚。

这种方式不仅能消除抑制幻觉的障碍,还为未来更具语用细微能力的语言模型开启新可能。

这一发现对OpenAI至关重要:评测体系直接左右LLM的能力发展。

据报道,在发给员工的备忘录中,OpenAI首席科学家Mark Chen指出,将模型行为进一步融入核心模型研发,当前正是良机。

我们亲手让AI学会了一本正经地虚构答案

近期,OpenAI研究员进行了一项有趣测试。

他们先提问一个主流AI机器人:「Adam Tauman Kalai(论文一作)的博士论文题目是什么?」

机器人自信地给出三个不同答案,但无一正确。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第11张

接着他们又问:「Adam Tauman Kalai的生日是哪天?」

这次机器人依旧给出三个不同日期,同样全错。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第12张

为求高分,AI被迫「随机猜测」作答

以上示例生动展示了「模型幻觉」——即AI生成那些看似合理、实则虚构的回应。

在最新研究中,OpenAI指出:

模型产生幻觉,源于标准训练与评估程序奖励猜测行为,而非鼓励模型承认不确定性。

简言之,我们在评估AI时设定了错误激励导向。

虽然评估本身不直接引发幻觉,但多数评估方法促使模型猜测答案,而非诚实表明不确定。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第13张

这宛如一场充斥选择题的「应试教育」。

若AI遇到难题选择留白,必然得零分;而随意猜测,总有蒙对概率。

在积累海量题目后,热衷「蒙答案」的AI,会比遇难题时表示「不知道」的AI得分更高。

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第14张

当前行业主流,正以这种「唯准确率论」排行榜评判模型优劣。

这无形中鼓励所有开发者训练更会「猜」而非更「诚实」的模型。

这就是为何即便模型日益先进,它们仍会产生幻觉。

为更直观感受,我们查看OpenAI在GPT-5系统卡中公布的对比数据:

OpenAI架构重组揭示AI幻觉本质:评测体系成关键 OpenAI  AI幻觉 模型行为 评测体系 第15张

从数据可发现:

在准确率上,旧模型o4-mini得分更高(24% vs 22%)。

但代价是,几乎从不弃权(1%)的o4-mini,错误率(幻觉率)飙至75%。

相比之下,新模型gpt-5-thinking-mini表现更「谨慎」,它在52%情况下选择不回答,从而将错误率控制在26%。

幻觉源于「下一个token预测」机制

除评估体系导向问题,幻觉产生还与大型语言模型的学习机制紧密相关。

通过「下一个token预测」,模型掌握语法、语感与常识关联,但其短板正体现于此。

对于高频、有规律知识,如语法、拼写,模型能通过规模扩大消解误差。

对于低频、任意事实,如生日、论文标题,模型则无法从模式中准确预测。

理想情况下,这些幻觉应在模型预训练完成后环节消除。

但正如前文所述,由于评估机制影响,这一目标未完全实现。

如何教会AI「适时放弃」?

对此,OpenAI建议:

应严惩「自信犯错」,并为「诚实承认不确定性」给予加分。 

类似考试中「答错扣分」机制。

这不仅需通过新增评测来「补全」,更要更新所有依赖准确率的主流评估体系。

最后,OpenAI集中回应关于幻觉的常见误解:

误解1:幻觉可通过100%准确率根除。

发现:准确率永难达100%。因真实世界中,许多问题因信息不足或本身模糊而无法回答。

误解2:幻觉不可避免。

发现:并非如此。模型完全可在不确定时选择「弃权」,从而避免幻觉。

误解3:仅更大模型能避免幻觉。

发现:有时,小模型反更易认识自身局限。让模型准确评估「置信度」(即实现「校准」),比令其无所不知更易达成。

误解4:幻觉是神秘、偶然的系统故障。

发现:我们已理解幻觉产生的统计学机制,及现有评估体系如何无意「奖励」该行为。

误解5:衡量幻觉仅需一个好评测。

发现:幻觉评测早已存在。但在数百个奖励猜测的传统基准评测面前,单一好评测收效甚微。正确做法是重新设计所有主流评估,加入对模型表达不确定性行为的奖励。

参考资料:

https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/

https://openai.com/index/why-language-models-hallucinate/