当前位置：首页 > 科技资讯 > 正文

OpenAI幕后功臣：翁家翌与他的大模型“造铲”之路

主机测评网
科技资讯
2026-04-03
686

揭秘ChatGPT背后的中国力量：在OpenAI打磨“工业底座”的峥嵘岁月。

智东西1月20日深度报道，在ChatGPT辉煌成就的背后，有一位不可或缺的中国工程师——OpenAI核心贡献者翁家翌。近期，他在AI播客WhynotTV Podcast中深度露面，首度详尽还原了自己从清华天才少年蜕变为OpenAI基础设施（Infra）核心骨干的传奇历程。

OpenAI幕后功臣：翁家翌与他的大模型“造铲”之路 OpenAI核心贡献者翁家翌强化学习(RLHF) 后训练(Post-Training)系统第1张

图源自翁家翌GitHub主页

作为强化学习（RL）与后训练（Post-Training）系统的灵魂工程师，翁家翌深度参与了GPT-3.5、GPT-4及研发中GPT-5等核心模型的训练工作。他亲手搭建的Infra系统，已成为OpenAI大模型迭代的坚实底座，更是ChatGPT保持领先地位的关键支柱。

在长达两小时的深度对话中，翁家翌不仅拆解了OpenAI Post-Training系统的构建逻辑，还揭秘了公司持续输出爆款的底层逻辑。

此外，他还分享了关于AGI定义、OpenAI开源争议以及内部人才流动等前沿观察。在DeepSeek、英伟达、谷歌等巨头纷纷伸出橄榄枝时，他为何坚定选择OpenAI？

谈及职业定位，他自诩为“卖铲人中最懂客户的那位”，并定下了“最大化个人在OpenAI官方博客出现频率”的职业目标。这场访谈，揭开了这位技术大拿的内心世界。

01. 从“卖铲者”到后训练主帅，他是OpenAI模型的地基构建者

在OpenAI，几乎每一个重磅模型的发布贡献名单中，翁家翌都榜上有名。他主导构建了强化学习后训练（Post-Training）阶段的核心底座。

“每一个重大版本的发布，我的名字都会出现。”他淡然表示，“因为全公司都在使用这套Post-Training Infra来训练RLHF模型。”

他将自己定位为“卖铲人”，由于强化学习模块处于技术栈顶端，他是最贴近最终用户体验的基石开发者。他曾为自己设立一个硬核KPI：“我要最大化在OpenAI Blog上出现的次数。”

针对当下年轻人的职业规划，他直言不讳地建议：应持续深耕工程建设，而非沉溺于传统学术研究。他认为：“现代学术界亟需重构。”对于志在工业界的人才，他强调，“AI实验室最匮乏且最具挑战的方向正是Infra（基础设施），那是一个永无止境的技术深渊。”

他指出学术界常在一些狭窄任务（如Atari、MoJoCo）上过度优化，却无法解决实际工程问题。早在2022年，他便果断停止了“天授”框架的开发，全力转向OpenAI内部更有实战价值的RL Infra构建。

在OpenAI内部，他见证了诸多历史性的瞬间。起初他负责WebGPT项目，通过强化学习优化模型交互。在ChatGPT爆发前夕，他构建的训练系统已成为公司的核心基建。上线当天服务器爆火的场景，让他更加笃信这个方向的价值。

谈及OpenAI的成功秘诀，翁家翌归纳为：超高的单位时间迭代效率，以及“懂技术”的领导层。在引入前谷歌工程专家后，团队系统性地优化了工程流程，“RL本质上就是试错，试得越快，成功率越高。”

此外，高层对技术的敏锐度也至关重要。总裁Greg Brockman深度参与基建细节，CEO Sam Altman则通过研究助理实时掌控进展。这种上下通透的信息流，确保了公司像一个精密协作的整体。

02. 重塑后训练系统：为ChatGPT装上进化的引擎

在GPT-3.5问世前，OpenAI已在GPT-4上秘密验证RLHF流程。翁家翌回忆，他当时承担了RLHF训练流水线的从0到1构建任务，将技术在GPT-4上跑通后再反向适配GPT-3.5。

这并非简单的代码迁移。面对行业内缺乏成熟基线的现状，他必须解决“效果衡量”这一核心痛点。为了对抗奖励信号的过度拟合（hacking），团队最终引入了“人机协同（human-in-the-loop）”评估机制，由内部员工亲测打分，才选出了如今风靡全球的模型版本。

在系统层面，Post-Training的复杂性远超常规仿真环境。模型采样与训练的吞吐平衡、对GPU资源的极致压榨，都考验着工程师对分布式系统和底层架构的深度理解。

高强度的开发曾让他因剧烈头痛送医急诊。此后，他开始强制体育锻炼。目前，翁家翌正带领团队进行下一代RL Infra的推倒重来式重构，旨在彻底清理技术债，为OpenAI研究员提供更高阶的创新平台。

03. 竞赛少年到清华极客：骨子里的“策略意识”

翁家翌的技术天赋早在少年时代便已显现。在奥数训练中，他拥有超凡的直觉。但他谦逊地认为自己并非“快手”，而是通过提前学习来构筑优势。初二学高中课程，初三学微积分，他深谙“投资未来”的道理。

为跻身顶尖学府，他转战信息学竞赛（OI）。他在福建省队选拔中惊险突围，高二便斩获清华“降60分”录取资格。那段在没有编译器的iPad上盲敲代码的经历，磨炼了他对程序逻辑的精准把控。

进入清华后，翁家翌以一种独特的方式“火遍校园”——他开源了自己所有的课程作业，打破信息不对称。他打趣道：“比起捐楼，学弟学妹们可能更感激我的作业库。”

在大二的科研尝试中，他“误打误撞”选修了强化学习。虽然最初觉得科研过程像“炼丹”般痛苦，但他凭借极强的软工能力，开发了一套面向RL的基础设施库，这成为了他日后通往OpenAI的关键基石。

04. 抉择OpenAI：要工程实效，不要学术泡沫

2021年，拿到包括Google、DeepSeek前身（幻方AI Lab）、英伟达等多家巨头Offer后，翁家翌毅然选择了彼时尚未大红大紫的OpenAI。他坦言：“我想体验世界顶尖实验室的工业级科研方法论。”

他由OpenAI联创John Schulman亲面。Schulman对他漂亮的GitHub主页及高效的工程编码能力赞赏有加。翁家翌坚信，“教研究员做工程，比教工程师做研究难得多。”他甘愿做那个“卖铲子”的人，将基建打磨到极致，让研究想法得以快速验证。

对于AGI的定义，翁家翌有自己的标准：“如果它能完成我心中80%-90%的有意义任务，它就是AGI。”面对OpenAI不“Open”的指责，他从公司生存与商业可持续的角度给出了现实的解释，并强调低门槛的使用权（如ChatGPT免费版）有时比开源权重更能造福大众。

谈及Sam Altman的风波与未来，翁家翌表现出极强的理性：他认为公司需要像Sam这样能获取资源、搞定算力的领航员。他甚至设想，未来一个拥有无限上下文记忆的AI Agent，或许是解决组织臃肿、实现高效管理的最佳CEO。

访谈末尾，翁家翌对“预测未来”展现了哲学式的思考。他认为人生的价值在于当下的选择与体验。尽管AGI的征途充满变数，他依然选择通过持续“投资未来”，来为自己和全人类赢得选择的权利。

免费服务器阿里云服务器免费vps

本文由主机测评网于2026-04-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260433129.html

OpenAI幕后功臣：翁家翌与他的大模型“造铲”之路

01. 从“卖铲者”到后训练主帅，他是OpenAI模型的地基构建者

02. 重塑后训练系统：为ChatGPT装上进化的引擎

03. 竞赛少年到清华极客：骨子里的“策略意识”

04. 抉择OpenAI：要工程实效，不要学术泡沫

开源鸿蒙PC开发：Mac版命令行适配环境搭建全流程（从零到一验证指南）

荣耀与魅族：身陷“平替”与“附庸”迷局，AI浪潮下谁能率先突围？

OpenAI幕后功臣：翁家翌与他的大模型“造铲”之路

01. 从“卖铲者”到后训练主帅，他是OpenAI模型的地基构建者

02. 重塑后训练系统：为ChatGPT装上进化的引擎

03. 竞赛少年到清华极客：骨子里的“策略意识”

04. 抉择OpenAI：要工程实效，不要学术泡沫

开源鸿蒙PC开发：Mac版命令行适配环境搭建全流程（从零到一验证指南）

荣耀与魅族：身陷“平替”与“附庸”迷局，AI浪潮下谁能率先突围？

相关文章