当前位置:首页 > 科技资讯 > 正文

OpenAI幕后功臣:翁家翌与他的大模型“造铲”之路

揭秘ChatGPT背后的中国力量:在OpenAI打磨“工业底座”的峥嵘岁月。

智东西1月20日深度报道,在ChatGPT辉煌成就的背后,有一位不可或缺的中国工程师——OpenAI核心贡献者翁家翌。近期,他在AI播客WhynotTV Podcast中深度露面,首度详尽还原了自己从清华天才少年蜕变为OpenAI基础设施(Infra)核心骨干的传奇历程。

OpenAI幕后功臣:翁家翌与他的大模型“造铲”之路 OpenAI核心贡献者  翁家翌 强化学习(RLHF) 后训练(Post-Training)系统 第1张

图源自翁家翌GitHub主页

作为强化学习(RL)与后训练(Post-Training)系统的灵魂工程师,翁家翌深度参与了GPT-3.5、GPT-4及研发中GPT-5等核心模型的训练工作。他亲手搭建的Infra系统,已成为OpenAI大模型迭代的坚实底座,更是ChatGPT保持领先地位的关键支柱。

在长达两小时的深度对话中,翁家翌不仅拆解了OpenAI Post-Training系统的构建逻辑,还揭秘了公司持续输出爆款的底层逻辑。

此外,他还分享了关于AGI定义、OpenAI开源争议以及内部人才流动等前沿观察。在DeepSeek、英伟达、谷歌等巨头纷纷伸出橄榄枝时,他为何坚定选择OpenAI?

谈及职业定位,他自诩为“卖铲人中最懂客户的那位”,并定下了“最大化个人在OpenAI官方博客出现频率”的职业目标。这场访谈,揭开了这位技术大拿的内心世界。

01. 从“卖铲者”到后训练主帅,他是OpenAI模型的地基构建者

在OpenAI,几乎每一个重磅模型的发布贡献名单中,翁家翌都榜上有名。他主导构建了强化学习后训练(Post-Training)阶段的核心底座。

每一个重大版本的发布,我的名字都会出现。”他淡然表示,“因为全公司都在使用这套Post-Training Infra来训练RLHF模型。”

他将自己定位为“卖铲人”,由于强化学习模块处于技术栈顶端,他是最贴近最终用户体验的基石开发者。他曾为自己设立一个硬核KPI:“我要最大化在OpenAI Blog上出现的次数。”

针对当下年轻人的职业规划,他直言不讳地建议:应持续深耕工程建设,而非沉溺于传统学术研究。他认为:“现代学术界亟需重构。”对于志在工业界的人才,他强调,“AI实验室最匮乏且最具挑战的方向正是Infra(基础设施),那是一个永无止境的技术深渊。

他指出学术界常在一些狭窄任务(如Atari、MoJoCo)上过度优化,却无法解决实际工程问题。早在2022年,他便果断停止了“天授”框架的开发,全力转向OpenAI内部更有实战价值的RL Infra构建。

在OpenAI内部,他见证了诸多历史性的瞬间。起初他负责WebGPT项目,通过强化学习优化模型交互。在ChatGPT爆发前夕,他构建的训练系统已成为公司的核心基建。上线当天服务器爆火的场景,让他更加笃信这个方向的价值。

谈及OpenAI的成功秘诀,翁家翌归纳为:超高的单位时间迭代效率,以及“懂技术”的领导层。在引入前谷歌工程专家后,团队系统性地优化了工程流程,“RL本质上就是试错,试得越快,成功率越高。”

此外,高层对技术的敏锐度也至关重要。总裁Greg Brockman深度参与基建细节,CEO Sam Altman则通过研究助理实时掌控进展。这种上下通透的信息流,确保了公司像一个精密协作的整体。

02. 重塑后训练系统:为ChatGPT装上进化的引擎

在GPT-3.5问世前,OpenAI已在GPT-4上秘密验证RLHF流程。翁家翌回忆,他当时承担了RLHF训练流水线的从0到1构建任务,将技术在GPT-4上跑通后再反向适配GPT-3.5。

这并非简单的代码迁移。面对行业内缺乏成熟基线的现状,他必须解决“效果衡量”这一核心痛点。为了对抗奖励信号的过度拟合(hacking),团队最终引入了“人机协同(human-in-the-loop)”评估机制,由内部员工亲测打分,才选出了如今风靡全球的模型版本。

在系统层面,Post-Training的复杂性远超常规仿真环境。模型采样与训练的吞吐平衡、对GPU资源的极致压榨,都考验着工程师对分布式系统和底层架构的深度理解。

高强度的开发曾让他因剧烈头痛送医急诊。此后,他开始强制体育锻炼。目前,翁家翌正带领团队进行下一代RL Infra的推倒重来式重构,旨在彻底清理技术债,为OpenAI研究员提供更高阶的创新平台。

03. 竞赛少年到清华极客:骨子里的“策略意识”

翁家翌的技术天赋早在少年时代便已显现。在奥数训练中,他拥有超凡的直觉。但他谦逊地认为自己并非“快手”,而是通过提前学习来构筑优势。初二学高中课程,初三学微积分,他深谙“投资未来”的道理。

为跻身顶尖学府,他转战信息学竞赛(OI)。他在福建省队选拔中惊险突围,高二便斩获清华“降60分”录取资格。那段在没有编译器的iPad上盲敲代码的经历,磨炼了他对程序逻辑的精准把控。

进入清华后,翁家翌以一种独特的方式“火遍校园”——他开源了自己所有的课程作业,打破信息不对称。他打趣道:“比起捐楼,学弟学妹们可能更感激我的作业库。”

在大二的科研尝试中,他“误打误撞”选修了强化学习。虽然最初觉得科研过程像“炼丹”般痛苦,但他凭借极强的软工能力,开发了一套面向RL的基础设施库,这成为了他日后通往OpenAI的关键基石。

04. 抉择OpenAI:要工程实效,不要学术泡沫

2021年,拿到包括Google、DeepSeek前身(幻方AI Lab)、英伟达等多家巨头Offer后,翁家翌毅然选择了彼时尚未大红大紫的OpenAI。他坦言:“我想体验世界顶尖实验室的工业级科研方法论。”

他由OpenAI联创John Schulman亲面。Schulman对他漂亮的GitHub主页及高效的工程编码能力赞赏有加。翁家翌坚信,“教研究员做工程,比教工程师做研究难得多。”他甘愿做那个“卖铲子”的人,将基建打磨到极致,让研究想法得以快速验证。

对于AGI的定义,翁家翌有自己的标准:“如果它能完成我心中80%-90%的有意义任务,它就是AGI。”面对OpenAI不“Open”的指责,他从公司生存与商业可持续的角度给出了现实的解释,并强调低门槛的使用权(如ChatGPT免费版)有时比开源权重更能造福大众。

谈及Sam Altman的风波与未来,翁家翌表现出极强的理性:他认为公司需要像Sam这样能获取资源、搞定算力的领航员。他甚至设想,未来一个拥有无限上下文记忆的AI Agent,或许是解决组织臃肿、实现高效管理的最佳CEO。

访谈末尾,翁家翌对“预测未来”展现了哲学式的思考。他认为人生的价值在于当下的选择与体验。尽管AGI的征途充满变数,他依然选择通过持续“投资未来”,来为自己和全人类赢得选择的权利。