当前位置：首页 > 科技资讯 > 正文

强化学习重塑AI未来：硅谷巨头的新趋势

强化学习（Reinforcement Learning, RL）曾伴随AlphaGo的崛起而风靡一时，却在大型模型浪潮中沉寂多年。如今，在AI Agent技术架构和模型预训练领域，强化学习的应用正成为硅谷的一种主流趋势。掌握强化学习技术的顶尖人才，正成为硅谷巨头与投资人的宠儿。

本期《硅谷101》，泓君继续与Pokee.ai创始人、前Meta AI应用强化学习团队负责人朱哲清展开对话，我们将探讨：

1. 在模型进化与Agent商业化中，最新的技术方向是什么；

2. Meta收购ScaleAI背后的商业逻辑；

3. 硅谷强化学习人才的主要聚集地。

强化学习重塑AI未来：硅谷巨头的新趋势强化学习 AGI 硅谷收购第1张

以下是这次对话内容的精选：

01 强化学习与AGI的五个层次：真正的分水岭在哪？

泓君：我注意到OpenAI在最近的发布会中也提到了使用RL的底层架构。我知道RL架构也是你的强项，能否简单介绍一下使用RL架构的优势？它对应的是什么？

强化学习重塑AI未来：硅谷巨头的新趋势强化学习 AGI 硅谷收购第2张

朱哲清：RL架构有多种形式，包括完全基于大型语言模型（LLM）的token（令牌）强化学习，以及我们这种以行为（action）为核心的强化学习。这两种决策方式各有优劣，用例也不同。使用RL框架进行Agent训练主要是因为有明确的目标驱动，无论是深度研究还是智能体系统。

强化学习重塑AI未来：硅谷巨头的新趋势强化学习 AGI 硅谷收购第3张

泓君：哪些任务更适合使用监督学习微调？哪些任务必须使用RL方式？这两者之间有何不同？

朱哲清：目前共识是，大量已有标注数据的任务通过监督学习可以取得高水平表现，再通过RLHF（基于人类反馈的强化学习）后训练进一步提升效果。而许多目标驱动的任务更适合RL预训练。

泓君：有哪些公司在做RL预训练？

朱哲清：目前只有研究团队在做RL预训练，但我们已经开始尝试。不过，有些先验知识无法通过预训练获得。

泓君：强化学习主要解决什么问题？很多任务是以目标驱动的。

朱哲清：例如写代码、数学物理问题、金融机构操作等。这类任务通常没有大量数据，需要反事实的验证器来评估输出是否正确。

泓君：Meta为何收购Scale AI？

朱哲清：多模态数据标注在视频和图片数据上难以避免，特别是强化学习微调需要高解析能力。Meta希望借此提升多模态能力。

泓君：你与强化学习奠基人Richard S. Sutton有何渊源？他提出了哪些前瞻性想法？

强化学习重塑AI未来：硅谷巨头的新趋势强化学习 AGI 硅谷收购第4张

朱哲清：我与Sutton导师是好友，他坚持强化学习研究方向，提出了模型可塑性等问题。他的坚持促成了强化学习行业的发展。

本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439080.html