【新智元深度解读】OpenAI迎来重大组织变革:ChatGPT的「模型行为」团队正式整合至后训练部门,原负责人Joanne Jang转而领导新成立的OAI实验室。这一调整背后,源自一项突破性发现:当前评估标准无形中奖励模型的「幻觉」行为,迫使AI沦为「应试工具」。一次团队重组与评测范式的重塑,或许正重新勾勒AI的能力边界与产品演进方向。
9月6日,OpenAI正式宣布重组ChatGPT「个性化」研究团队!
这支约14人的小组,规模虽小却肩负重任——他们负责塑造GPT模型与人类交互的行为方式。
据内部消息透露,模型行为团队将直接并入后训练团队,并向后训练负责人Max Schwarzer汇报工作。
团队前负责人Joanne Jang,将从头筹建新实验室「OAI Labs」——致力于为人类与AI的协作,发明并原型化全新的交互界面。
与此同时,OpenAI罕见发布一篇论文揭秘——导致AI产生「幻觉」的根源,竟在于人类自身!
整个行业为追逐排行榜高分而设计的「应试」评估体系,促使AI宁愿猜测答案,也不愿坦诚回应「我不知道」。
论文地址:https://openai.com/index/why-language-models-hallucinate/
模型行为团队几乎参与了GPT-4之后所有模型的研发,包括GPT-4o、GPT-4.5以及GPT-5。
上周,作为Model Behavior团队负责人的Joanne Jang,入选《时代》百大AI人物榜单的「思想家」类别,排名超越图灵奖得主、深度学习巨头Yoshua Bengio、谷歌首席科学家Jeffrey Dean等知名人物。
就在同一天,OpenAI决定将她调离原团队,转而负责一个全新方向。
对她而言,那天的确充满「超现实」感。
Joanne Jang认为,她的工作核心在于「助力用户达成目标」,但前提是不造成伤害或限制他人自由。
她直言:AI实验室的员工不应成为裁决人们创作内容的仲裁者。
Joanne Jang发文宣布她的新职位:发明并原型化全新交互界面,探索人与AI协作的未来模式。
她将从头负责新实验室「OAI Labs」:一个以研究为导向的团队,专注于为人类与AI的协作方式,发明和构建新界面原型。
借此平台,她将探索超越聊天、甚至超越智能体的新模式——迈向能够用于思考、创造、娱乐、学习、连接与实践的全新范式与工具。
这令她无比振奋,也是过去四年在OpenAI她最热爱的工作:
将前沿技术转化为面向全球的产品,并与才华横溢的同事共同打磨落地。
从DALL·E 2、标准语音模式,到GPT-4与模型行为,她在OpenAI的职责涵盖多样化个性与交互方式。
她收获颇丰,感悟深刻:
设计一个界面,竟能如此激发人们突破想象边界。
在接受采访时,她坦言,目前仍处早期阶段,究竟会探索出哪些全新交互界面,尚无明确答案。
她表示:「我非常兴奋能探索一些突破「聊天」范式的模式。聊天当前更多关联陪伴;而「智能体」则强调自主性。」
「但我更愿将AI系统视为思考、创造、游戏、实践、学习和连接的工具。」
OpenAI的模型行为研究员,负责设计与开发评测体系,横跨多个环节:
对齐、训练、数据、强化学习以及后训练等。
除了研究本身,模型行为研究员还需具备产品敏锐度,以及对经典AI对齐问题的深入理解。
OpenAI对模型行为研究员的经验要求
在过往招聘中,OpenAI称:模型即产品,而评测体系是模型的灵魂。
但OpenAI最新研究显示:评测体系从根本上塑造模型行为。
在论文中,研究人员得出结论:
实际上,多数主流评测在奖励幻觉行为。只需对这些主流评测进行简单调整,就能重新校准激励机制,让模型在表达不确定性时获得奖励,而非惩罚。
这种方式不仅能消除抑制幻觉的障碍,还为未来更具语用细微能力的语言模型开启新可能。
这一发现对OpenAI至关重要:评测体系直接左右LLM的能力发展。
据报道,在发给员工的备忘录中,OpenAI首席科学家Mark Chen指出,将模型行为进一步融入核心模型研发,当前正是良机。
近期,OpenAI研究员进行了一项有趣测试。
他们先提问一个主流AI机器人:「Adam Tauman Kalai(论文一作)的博士论文题目是什么?」
机器人自信地给出三个不同答案,但无一正确。
接着他们又问:「Adam Tauman Kalai的生日是哪天?」
这次机器人依旧给出三个不同日期,同样全错。
以上示例生动展示了「模型幻觉」——即AI生成那些看似合理、实则虚构的回应。
在最新研究中,OpenAI指出:
模型产生幻觉,源于标准训练与评估程序奖励猜测行为,而非鼓励模型承认不确定性。
简言之,我们在评估AI时设定了错误激励导向。
虽然评估本身不直接引发幻觉,但多数评估方法促使模型猜测答案,而非诚实表明不确定。
这宛如一场充斥选择题的「应试教育」。
若AI遇到难题选择留白,必然得零分;而随意猜测,总有蒙对概率。
在积累海量题目后,热衷「蒙答案」的AI,会比遇难题时表示「不知道」的AI得分更高。
当前行业主流,正以这种「唯准确率论」排行榜评判模型优劣。
这无形中鼓励所有开发者训练更会「猜」而非更「诚实」的模型。
这就是为何即便模型日益先进,它们仍会产生幻觉。
为更直观感受,我们查看OpenAI在GPT-5系统卡中公布的对比数据:
从数据可发现:
在准确率上,旧模型o4-mini得分更高(24% vs 22%)。
但代价是,几乎从不弃权(1%)的o4-mini,错误率(幻觉率)飙至75%。
相比之下,新模型gpt-5-thinking-mini表现更「谨慎」,它在52%情况下选择不回答,从而将错误率控制在26%。
除评估体系导向问题,幻觉产生还与大型语言模型的学习机制紧密相关。
通过「下一个token预测」,模型掌握语法、语感与常识关联,但其短板正体现于此。
对于高频、有规律知识,如语法、拼写,模型能通过规模扩大消解误差。
对于低频、任意事实,如生日、论文标题,模型则无法从模式中准确预测。
理想情况下,这些幻觉应在模型预训练完成后环节消除。
但正如前文所述,由于评估机制影响,这一目标未完全实现。
对此,OpenAI建议:
应严惩「自信犯错」,并为「诚实承认不确定性」给予加分。
类似考试中「答错扣分」机制。
这不仅需通过新增评测来「补全」,更要更新所有依赖准确率的主流评估体系。
最后,OpenAI集中回应关于幻觉的常见误解:
误解1:幻觉可通过100%准确率根除。
发现:准确率永难达100%。因真实世界中,许多问题因信息不足或本身模糊而无法回答。
误解2:幻觉不可避免。
发现:并非如此。模型完全可在不确定时选择「弃权」,从而避免幻觉。
误解3:仅更大模型能避免幻觉。
发现:有时,小模型反更易认识自身局限。让模型准确评估「置信度」(即实现「校准」),比令其无所不知更易达成。
误解4:幻觉是神秘、偶然的系统故障。
发现:我们已理解幻觉产生的统计学机制,及现有评估体系如何无意「奖励」该行为。
误解5:衡量幻觉仅需一个好评测。
发现:幻觉评测早已存在。但在数百个奖励猜测的传统基准评测面前,单一好评测收效甚微。正确做法是重新设计所有主流评估,加入对模型表达不确定性行为的奖励。
参考资料:
https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/
https://openai.com/index/why-language-models-hallucinate/
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213679.html