我们正在悄然经历一场根本性的AI范式转变,其重要性堪比Transformer的诞生。
其意义与Transformer的问世同等重大。
在过去一年中,关于人工智能的发展,形成了两种对立的看法:
作为Transformer的共同作者,现任OpenAI研究科学家的Łukasz Kaiser近期接受了一次访谈,从内部视角分享了他的见解。
访谈内容丰富,涉及AI底层范式的转型、GPT-5.1命名规则的变迁、未来AI的发展方向,以及Transformer诞生的一些幕后故事。
AI并非发展放缓,而是进入了新的代际。
GPT-5.1并非普通的微小升级,OpenAI内部的版本命名策略已经改变。
多模态推理将成为下一个关键突破口。
AI不会使人类彻底失业。
家用机器人将是继ChatGPT之后最显而易见的AI革命。
接下来,让我们深入了解详细内容:
过去一年,关于模型进步放缓的论调此起彼伏,但Łukasz认为这种观点并不正确。
他的解释十分直接:
从内部视角观察,AI能力的提升是一条极其平滑的指数曲线。
这与摩尔定律相似,几十年来摩尔定律一直有效,甚至在GPU的推动下加速发展,根本原因在于它经历了多代技术的更迭。
因此,从外部看,AI发展平稳;从内部看,其进步依赖于新技术、计算能力的提升以及工程优化的协同效应。
至于为何有人感觉变慢了,原因很简单:AI的底层范式已悄然从预训练转向了推理模型。
这是自Transformer问世以来的又一次关键转折点。
如果用S型曲线描述技术发展(起步、快速增长、平稳期),那么预训练正处于上升后期,而推理模型仍处于起步阶段。
但这并不意味着预训练的Scaling Laws失效,它依然有效,只是相比新的推理范式,需要更多的资金投入。
因此,出于经济考虑,业内人士普遍将工作重点转向更小、更便宜但质量相当的模型,这也是外界误以为预训练已停止的原因之一。
而推理模型作为新兴范式,其进步速度将非常迅猛。
以ChatGPT为例,GPT-3.5直接根据训练数据记忆输出答案,不借助外部工具或推理;而最新的ChatGPT则会主动浏览网页,进行推理分析,然后给出精确答案。
对普通用户而言,若不仔细对比,可能觉得两者差别不大,但实际上背后是性能的质的飞跃。
再如Codex,程序员的工作模式在近几个月已转变为“Codex先行处理,人工随后微调”,这一变化非常彻底,但若非专业编程人员,很难察觉这种根本性变革。
总的来说,这些变化发生得太快,以至于人们尚未完全察觉。
推理模型的本质与基础大模型相似,区别在于它在给出最终答案前会先进行思考,即所谓的思维链。
在思考过程中,模型被允许使用工具,如浏览网页,以提供更准确的答案。其推理过程也被视为模型的一部分并接受训练。
与传统深度神经网络的梯度下降训练不同,推理模型更多地采用强化学习。
具体而言,强化学习通过奖励机制引导模型获得更优答案,同时需要研究人员准备更精细的数据以调整强化学习参数。
通过强化学习,模型能够学会自我纠错。
未来行业将进一步转向更复杂的强化学习,例如利用一个大模型评估答案的正确性或偏好,或融入更多人类偏好。
总之,未来强化学习的应用将更加广泛,不仅限于特定领域,还能处理更多通用数据,如多模态推理。尽管最近Gemini已能在推理过程中生成图像,但整体仍处于起步阶段,相信在强化学习的助力下将进一步提升。
关于最新发布的GPT-5.1,Łukasz也透露了更多细节。
GPT-5.1看似小版本更新,实际上从内部看是一次重大的稳定性迭代。
首先回顾从GPT-4到GPT-5,简单来说,由于强化学习和合成数据的应用,GPT-5的推理能力显著增强。
而GPT-5.1的改进主要集中在后训练阶段,例如增强安全性、减少幻觉,并增加了书呆子、专业等多种风格选项。
版本命名不再与技术细节挂钩,而是以用户体验为导向。例如,GPT-5为基础能力较强的模型,GPT-5.1为能力更优版本,Mini为更小、更快、更廉价但性能稍弱的模型,推理模型则专注于复杂任务。
这种命名变化为OpenAI内部带来了更大灵活性,目前强化学习、预训练、幻灯片优化等多个项目并行推进,并通过蒸馏技术将多项目成果整合到一个模型中。
这大幅缩短了模型迭代周期,能更好地满足用户体验需求。因此,GPT-5.1看似小版本更新,实则体现了OpenAI基于用户对模型能力和目标预期的策略调整。
但坦率地说,GPT-5.1在某些能力上仍存在不足。
例如,Łukasz以自己5岁的女儿为例:
GPT-5.1能轻松解答奥林匹克竞赛题,但在小学一年级的奇偶数问题上却频频出错。
题目内容为:图中有两组点,中间有一个共享点,问总点数是奇数还是偶数。
5岁孩子能在10秒内得出答案(共享点导致总点数为奇数),但GPT-5.1和Gemini 3都自动忽略共享点,误判为偶数。
这主要是因为模型缺乏多模态能力,无法将问题的推理经验迁移到类似场景。因此,后续他们将在训练中强化多模态推理和上下文推理迁移能力。
作为Transformer的作者之一,Łukasz在访谈中补充了许多诞生细节。
Łukasz原本是理论计算机科学领域的学者,高中时便对数学和计算机产生浓厚兴趣,并在德国获得理论计算机科学与数学博士学位。
他一直对“思维如何运作”、“智能本质是什么”等问题充满好奇,曾在法国获得终身教职,从事逻辑和编程研究。
直到深度学习兴起,他加入了谷歌。
他先加入Ray Kurzweil团队,后转至Google Brain,开始与Ilya Sutskever等人合作。
在Transformer开发过程中,Łukasz主要负责编码和系统工作,参与了TensorFlow框架的开发。
有趣的是,据他回忆,Transformer论文的八位共同作者从未在同一物理空间同时出现过。
尽管他们素未谋面,却从不同角度共同构建了这一模型:
有人专注于注意力机制本身,有人研究如何通过前馈网络存储知识,还有人负责解决工程实现问题,比如他自己。
如今,Transformer无疑是AI架构的里程碑,但在当时,很多人不理解用同一模型处理多个任务的想法,普遍认为不同任务应分别训练专用模型。
但他们八人坚信自己的选择,后来的事实证明了他们的正确性。
关于离开谷歌加入OpenAI,其中一个原因是因为Ilya。
Ilya在谷歌时是Łukasz的直系领导,创办OpenAI后多次邀请他加入。恰好此时Łukasz也难以适应Google Brain团队规模扩大和远程工作氛围,于是双方一拍即合,Łukasz加入了OpenAI。
OpenAI没有让他失望,这里没有严格的组织架构,项目团队自发组成,并根据进展灵活调整,直到项目成熟才逐步扩大。
当然,不同项目间也存在资源竞争,毕竟OpenAI内部GPU资源有限。
从技术层面看,预训练目前消耗GPU资源最多,其次是强化学习和视频模型,资源分配很大程度上由技术需求决定。
因此竞争不可避免,Łukasz本人也不例外。
最后,Łukasz展望了他眼中的AI未来。
AI将改变工作,但不会使工作消失。
因为从产品层面看,即使AI自动化了大部分任务,对人类专家的需求依然存在。
以翻译行业为例,Transformer论文最初的应用场景就是翻译,如今模型能准确翻译西班牙语、法语等,但对于报纸广告乃至ChatGPT UI界面,仍需要人类译者二次审核。
这本质上是信任问题,即使模型能力再强,对于高风险、高关注度的场景,人们仍倾向于依赖人类专家经验。
只是对于某些基础工作,可替代性将提高,后续工作内容也会相应变化,但归根结底不会让人类无事可干。
Łukasz还预测,家用机器人可能成为“下一次更直观的AI革命”。
机器人技术的进展取决于多模态能力以及通用强化学习、通用推理的进步。一旦这些领域取得突破,机器人技术将迎来爆发式增长。
目前已有许多硅谷公司相继推出智能手遥操作等硬件产品,硬件基础也将迅速成熟,届时将与多模态和物理世界推理能力协同,实现家用机器人的能力跃迁。
这比ChatGPT更直观、更易于感知。
[1]https://www.youtube.com/watch?v=3K-R4yVjJfU&t=2637s
本文由主机测评网于2026-02-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260226857.html