当前位置:首页 > 科技资讯 > 正文

AI人才跳槽风潮:Meta高薪争抢,Jason Wei的强化学习启示

离开OpenAI,真的是为了Meta天价薪资?Jason Wei的离职博客,透露天机:未来AI世界更加令人向往!

硅谷的人才争夺战愈演愈烈!

曾经,是OpenAI从谷歌等公司吸引人才;如今,Meta直接砸钱抢人。

顶尖AI人才的薪酬包堪称天价,扎克伯格给出的起步价就高达1亿美元!

思维链之父、华人AI科学家Jason Wei,从谷歌跳槽到OpenAI,现在又跳槽到了Meta。

AI人才跳槽风潮:Meta高薪争抢,Jason Wei的强化学习启示 AI人才 Meta 强化学习 验证非对称性 第1张

在AI领域,Jason Wei极为高产。

根据谷歌学术统计,他有13篇被引次数超过1000的论文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究员,参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。

AI人才跳槽风潮:Meta高薪争抢,Jason Wei的强化学习启示 AI人才 Meta 强化学习 验证非对称性 第2张

在离职消息被媒体爆出之前,他发表了两篇博客,或许能让我们看出他为何选择离开。

令人惊讶的是,这些灵感都来自强化学习!

AI人才跳槽风潮:Meta高薪争抢,Jason Wei的强化学习启示 AI人才 Meta 强化学习 验证非对称性 第3张

AI人才跳槽风潮:Meta高薪争抢,Jason Wei的强化学习启示 AI人才 Meta 强化学习 验证非对称性 第4张

RL之人生启示:天生我材必有用

过去一年,他开始疯狂学习强化学习,几乎每时每刻都在思考强化学习。

RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。

当然,在一开始,模仿学习(imitation learning)非常必要,就像我们刚开始训练模型时,必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为,大家更倾向于放弃模仿,因为要最大化模型独特的优势,就只能依靠它自己的经验进行学习。

一个很典型的例子是:相比用人类写的思维链做监督微调,用RL训练语言模型解数学题效果更好。

人生也一样。

我们一开始靠「模仿」来成长,学校就是这个阶段,合情合理。

研究别人的成功之道,然后照抄。有时候确实有效,但时间一长就能意识到,模仿永远无法超越原版,因为每个人都有自己独特的优势。

强化学习告诉我们,如果想超越前人,必须走出自己的路,接受外部风险,也拥抱它可能给予的奖励。

他举两个他自己更享受、却相对小众的习惯:

  • 读大量原始数据。
  • 做消融实验,把系统拆开看每个部件的独立作用。

AI的未来:验证非对称性

验证非对称性意指某些任务的验证远比求解更为简单。

随着强化学习(RL)的突破,这一概念正成为AI领域最重要的思想之一。

验证非对称性的广泛应用

  • 数独和填字游戏
  • 开发网站
  • BrowseComp问题
  • 有些任务的验证耗时与求解相当
  • 有些任务验证比解决还费时
  • 通过前置研究让验证变得更简单

为什么验证非对称性如此重要?

“凡是能被测量的,都能被优化”

AlphaEvolve的案例

  • “求容纳11个单位六边形的最小外接六边形”
  • “训练集=测试集”的极致优化

“悟透此理后,方觉验证之不对称”

“凡能衡量的问题,终将告破”

“智能的边界必将犬牙交错”

“未来图景令人心驰神往”