此次对话虽不足一小时,但信息浓度极高,堪称一场思维盛宴!
OpenAI首席科学家Jakub Pachocki与首席研究官Mark Chen携手开启爆料模式,深度分享内幕:
在a16z的这场最新对谈中,两人不仅深入探讨了GPT-5如何融入长远推理、基准饱和后如何衡量进度,以及强化学习为何持续让质疑者惊讶,还系统阐述了OpenAI的人才标准、未来路线图与算力分配等核心议题。
简言之,几乎所有你对OpenAI好奇的问题,他俩都给出了答案~
(网友1):内容既深入又引人入胜!
(网友2):听起来像一支拥有明确愿景的强大团队。
闲话少叙,访谈精华即刻呈现——
访谈第一部分聚焦于GPT-5。
Mark Chen指出,GPT-5是OpenAI试图将推理能力普及化的一次重要尝试。
此前,公司拥有GPT系列(强调即时响应)和o系列(侧重推理)两类模型。从战略角度,他们不希望用户困惑于“我该使用哪种模式”,因此将未来重心转向更广泛的推理和智能体行为。
我们认为,GPT-5是向默认提供推理和更多智能体行为迈出的关键一步。
他再三强调,尽管相比o3及以往模型,GPT-5在多方面均有提升,但其核心意义在于将推理模式带给更广泛的用户群。
随后,主持人提及评估趋于饱和的问题,Jakub Pachocki对此进行了回应。
他直言不讳地承认,过去几年使用的评估方法确实已接近饱和点。
具体来说,早期(从GPT-2到GPT-4)的训练依赖大规模预训练数据,并通过评估测试模型的泛化能力;但如今,随着面向严肃推理的强化学习出现,模型能在特定领域深度训练成为专家,从而在某些评估中表现突出(却未必具备良好泛化性)。因此,当前缺乏更合适的评估体系。
他表示,未来OpenAI将重点关注模型是否能够发现新事物,并在具有经济意义的领域取得实际进展。
围绕发现新事物这一话题,两人分别回答了“在GPT-5发布前,哪种能力最让你惊讶?”的问题。
Mark Chen分享道,最令人印象深刻的是模型能够推动极其困难的前沿科学研究。
他曾与一些物理学家、数学家朋友共同测试模型,发现模型能解答新颖而复杂的问题。
这对他们而言犹如灵光闪现,模型能自动化完成可能需要学生耗时数月的工作。
而Jakub Pachocki则表示,o3的出现真正让他眼前一亮。尤其在处理数学公式或推理时,它达到了“相当可靠”的水平。
至于未来,Jakub透露OpenAI的一大目标是培养自动化研究员,这个研究员能自动发现新想法。
初步构想是,先自动化内部研究工作,再考虑自动化其他科学领域的进展。
他提到一个衡量进展的“有效方法”——观察模型实际进行推理和取得进展的时间跨度。
随着我们达到近乎精通高中竞赛的水平,现在的推理时间跨度约为1~5小时。
接下来,OpenAI将致力于延长这个时间跨度,无论是在模型的长期规划能力还是记忆保持方面。
对此,Mark Chen呼应了评估问题:
这就是为什么我们对衡量模型自主运行时长的评估充满兴趣。
话题转向强化学习(RL)。
每当OpenAI发布新模型版本,许多人怀疑强化学习会触及瓶颈,但RL依然“活力四射”。
那么,为何RL表现如此出色?RL有哪些令人惊讶之处?
面对这些问题,Jakub Pachocki首先解释了RL运作良好的原因:
RL的通用性与强大性:RL本身是一种高度通用的方法,它建立在深度学习这一“惊人通用学习方法”之上。一旦RL系统启动,研究人员就能探索众多想法。
锚定现实世界:长期以来,OpenAI努力解决的问题是如何将这些模型锚定到现实世界,即“环境是什么”。
与语言模型的结合:语言模型的突破是关键转折点。通过扩展深度学习来建模自然语言,OpenAI能创建对人类语言具有“极其细微理解”的模型。
Jakub Pachocki认为,过去几年是OpenAI研究中最激动人心的时期,因为他们发现了众多新方向和有望成功的想法,且这些想法似乎都在生效。
谈到奖励模型(Reward Model)时,他预计奖励模型的发展将非常迅速,并变得更简单,就像几年前讨论如何构建合适微调数据集一样。
同时,他指出这一演变远未结束,OpenAI正逐步向更接近人类学习的方向迈进,而当前RL仍无法完全实现这一点。
他特别强调,理解RL的关键思维是不要将现状视为终点,保持灵活性,因为相关工具和方法论将持续快速迭代。
针对当前火热的AI编程,主持人提到了OpenAI本月发布的GPT-5-codex,这是一个专为编程优化的模型。
Mark Chen表示,他们投入大量精力调整预设,以更好地匹配程序员对解决方案等待时间的预期。
上一代编程模型的问题在于,花在解决最难问题上的时间太少,而花在简单问题上的时间过多。
为测试模型能力,他们选择参加编程竞赛。
Jakub Pachocki认为,编程竞赛提供了一个很好的封闭测试环境,能衡量模型在受限条件和时间范围内提出新想法的能力。
不过,Jakub自称作为一位历史上极不情愿使用任何工具(甚至只用Vim)的“老派”程序员,使用GPT-5最新编码工具让他觉得“这不再是(以前的)方式了”。
他现在意识到,模型能在15分钟内近乎完美地完成30个文件的重构,因此“你必须使用它”。
他形容这种新编码方式仍处于“恐怖谷”阶段,因为它虽然解决了许多问题,但“仍有点像……不如同事那么顺畅”,并表示OpenAI的首要任务是摆脱恐怖谷。
而Mark Chen则将模型当前水平与围棋选手李世石面对AlphaGo的经历相联系,他直言:
从解决八年级数学问题到一年后在编码竞赛中达到自身表现水平,这种进步是疯狂的。
他坦言,他们确实感受到了李世石经历的部分情绪,并思考这些模型“有何不能为”。
Mark Chen观察到,这种进步已改变编码的默认方式。他引用最近与高中生的对话,指出如今年轻人认为默认编码方式是“凭感觉编码”,而从头编写所有机制反而成为怪异概念。
他总结道,氛围编码之后或许就是氛围研究,即凭感觉进行研究。
回归到人,两人分享了他们最看重的研究特质。
Jakub Pachocki认为,坚持不懈至关重要。
研究的本质是探索未知,许多尝试都会失败,因此必须准备好失败并从中学习。同时,要有清晰假设,并对进展保持极度诚实,不可自欺欺人证明结果。
他强调,对想法保持信心很重要,但更重要的是知道何时有效、何时无效,从而调整方向。
Mark Chen补充说,研究无捷径,需凭经验选择合适问题。问题太难易受挫,太简单则缺乏满足感。研究过程常伴大量失败,需学会何时坚持、何时转向。
他指出,“趣味性”来自阅读好论文、交流与经验积累。
关于如何留住人才,Mark Chen表示,OpenAI的优势在于专注基础研究而非简单模仿对手。他们有清晰研究目标,创新氛围激励研究员,同时公司注重文化建设和人才培养。
Jakub则指出,他们寻找的不是最“出圈”之人,而是曾解决难题、具备扎实技术功底并愿迎难而上的人,即使其先前领域非深度学习。
我们不会纯粹寻找谁做了最引人注目工作,或谁在社交媒体上最受关注(小扎:报我名得了~)。
在团队文化方面,Jakub强调要保护基础研究,不被产品竞争节奏带偏,研究员需空间思考未来一两年的重大问题。
总之,OpenAI的长期目标是打造“自动化研究员”,因此不同研究方向将围绕此目标逐渐融合。按Mark Chen的话说,粗线条需规定方向,但细节保持开放。
如果你有10%的额外资源,会将其投入计算、数据整理还是人员方面?
面对这最后一问,Mark Chen明确表示,计算资源是合理答案。
(笑)没有研究人员会觉得自己算力充足。
Jakub补充道,必须明确优先级,否则可能在所有方向都屈居第二。他强调计算仍是决定性因素,几年前人们认为会转向“数据受限”,但事实证明今天仍处于强烈计算限制下。
在算力有限的情况下,所有主流厂商几乎都面临产品发布与研究优先的抉择。
对此,Jakub强调OpenAI的研究路线主要基于长期信念,而非短期市场反馈。谈及未来哪些先验保持不变,他认为除计算外,还需考虑能源等物理约束。他预测机器人技术将在不久后成为焦点。
至此,访谈内容告一段落,你如何看待二人提出的上述观点?
访谈地址:
https://www.youtube.com/watch?v=KSgPNVmZ8jQ
本文由主机测评网于2026-01-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260114713.html