强化学习(Reinforcement Learning, RL)曾伴随AlphaGo的崛起而风靡一时,却在大型模型浪潮中沉寂多年。如今,在AI Agent技术架构和模型预训练领域,强化学习的应用正成为硅谷的一种主流趋势。掌握强化学习技术的顶尖人才,正成为硅谷巨头与投资人的宠儿。
本期《硅谷101》,泓君继续与Pokee.ai创始人、前Meta AI应用强化学习团队负责人朱哲清展开对话,我们将探讨:
1. 在模型进化与Agent商业化中,最新的技术方向是什么;
2. Meta收购ScaleAI背后的商业逻辑;
3. 硅谷强化学习人才的主要聚集地。
以下是这次对话内容的精选:
泓君:我注意到OpenAI在最近的发布会中也提到了使用RL的底层架构。我知道RL架构也是你的强项,能否简单介绍一下使用RL架构的优势?它对应的是什么?
朱哲清:RL架构有多种形式,包括完全基于大型语言模型(LLM)的token(令牌)强化学习,以及我们这种以行为(action)为核心的强化学习。这两种决策方式各有优劣,用例也不同。使用RL框架进行Agent训练主要是因为有明确的目标驱动,无论是深度研究还是智能体系统。
泓君:哪些任务更适合使用监督学习微调?哪些任务必须使用RL方式?这两者之间有何不同?
朱哲清:目前共识是,大量已有标注数据的任务通过监督学习可以取得高水平表现,再通过RLHF(基于人类反馈的强化学习)后训练进一步提升效果。而许多目标驱动的任务更适合RL预训练。
泓君:有哪些公司在做RL预训练?
朱哲清:目前只有研究团队在做RL预训练,但我们已经开始尝试。不过,有些先验知识无法通过预训练获得。
泓君:强化学习主要解决什么问题?很多任务是以目标驱动的。
朱哲清:例如写代码、数学物理问题、金融机构操作等。这类任务通常没有大量数据,需要反事实的验证器来评估输出是否正确。
泓君:Meta为何收购Scale AI?
朱哲清:多模态数据标注在视频和图片数据上难以避免,特别是强化学习微调需要高解析能力。Meta希望借此提升多模态能力。
泓君:你与强化学习奠基人Richard S. Sutton有何渊源?他提出了哪些前瞻性想法?
朱哲清:我与Sutton导师是好友,他坚持强化学习研究方向,提出了模型可塑性等问题。他的坚持促成了强化学习行业的发展。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439080.html