当前位置:首页 > 科技资讯 > 正文

强化学习重塑AI未来:硅谷巨头的新趋势

强化学习(Reinforcement Learning, RL)曾伴随AlphaGo的崛起而风靡一时,却在大型模型浪潮中沉寂多年。如今,在AI Agent技术架构和模型预训练领域,强化学习的应用正成为硅谷的一种主流趋势。掌握强化学习技术的顶尖人才,正成为硅谷巨头与投资人的宠儿。

本期《硅谷101》,泓君继续与Pokee.ai创始人、前Meta AI应用强化学习团队负责人朱哲清展开对话,我们将探讨:

1. 在模型进化与Agent商业化中,最新的技术方向是什么;

2. Meta收购ScaleAI背后的商业逻辑;

3. 硅谷强化学习人才的主要聚集地。

强化学习重塑AI未来:硅谷巨头的新趋势 强化学习  AGI 硅谷 收购 第1张

以下是这次对话内容的精选:

01 强化学习与AGI的五个层次:真正的分水岭在哪?

泓君:我注意到OpenAI在最近的发布会中也提到了使用RL的底层架构。我知道RL架构也是你的强项,能否简单介绍一下使用RL架构的优势?它对应的是什么?

强化学习重塑AI未来:硅谷巨头的新趋势 强化学习  AGI 硅谷 收购 第2张

朱哲清:RL架构有多种形式,包括完全基于大型语言模型(LLM)的token(令牌)强化学习,以及我们这种以行为(action)为核心的强化学习。这两种决策方式各有优劣,用例也不同。使用RL框架进行Agent训练主要是因为有明确的目标驱动,无论是深度研究还是智能体系统。

强化学习重塑AI未来:硅谷巨头的新趋势 强化学习  AGI 硅谷 收购 第3张

泓君:哪些任务更适合使用监督学习微调?哪些任务必须使用RL方式?这两者之间有何不同?

朱哲清:目前共识是,大量已有标注数据的任务通过监督学习可以取得高水平表现,再通过RLHF(基于人类反馈的强化学习)后训练进一步提升效果。而许多目标驱动的任务更适合RL预训练。

泓君:有哪些公司在做RL预训练?

朱哲清:目前只有研究团队在做RL预训练,但我们已经开始尝试。不过,有些先验知识无法通过预训练获得。

泓君:强化学习主要解决什么问题?很多任务是以目标驱动的。

朱哲清:例如写代码、数学物理问题、金融机构操作等。这类任务通常没有大量数据,需要反事实的验证器来评估输出是否正确。

02 Meta收购ScaleAI:背后的多模态焦虑

泓君:Meta为何收购Scale AI?

朱哲清:多模态数据标注在视频和图片数据上难以避免,特别是强化学习微调需要高解析能力。Meta希望借此提升多模态能力。

03 强化学习正当时:技术圈层与路径正在重构

泓君:你与强化学习奠基人Richard S. Sutton有何渊源?他提出了哪些前瞻性想法?

强化学习重塑AI未来:硅谷巨头的新趋势 强化学习  AGI 硅谷 收购 第4张

朱哲清:我与Sutton导师是好友,他坚持强化学习研究方向,提出了模型可塑性等问题。他的坚持促成了强化学习行业的发展。