强化学习(RL)被广泛认为是实现通用人工智能(AGI)的关键技术。
然而,前OpenAI研究员凯文·卢(Kevin Lu)认为,当前的RL难以实现如GPT-1到GPT-4般的重大突破,并建议“停止进行RL研究,转而从事产品开发”。
他的理由很简单明了:推动人工智能(AI)实现大规模转变的技术是互联网,而非transformers。
在一篇题为《互联网是唯一重要的技术》(The Only Important Technology Is The Internet)的文章中,他写道:
“在低数据(小数据)环境下,Transformers将毫无价值。我们缺乏RL所需的通用数据源......真正令人兴奋的应该是为RL寻找(或创造)新的数据源!”
“互联网本身是模型极其多样化的重要监督来源,也是人类的缩影。互联网才是真正为AI模型扩展(scaling)提供可能的技术。”
在文章中,他详细探讨了一个问题:如果互联网是「下一个 token 预测」的对偶,那RL的对偶又是什么?
“我们离发现RL的正确对偶,还很遥远。”
学术头条在不改变原文大意的前提下,对访谈内容做了适当的精编和删减。如下:
人们往往将AI的进展归功于那些里程碑式的文章,如transformers、RNNs或diffusion,但却忽视了AI的根本瓶颈:数据。那么,拥有好的数据,究竟意味着什么?
如果我们真正想继续推进AI的发展,就不应该研究AI优化技术,而应该研究互联网。互联网才是真正为AI模型扩展(scaling)提供可能的技术。
“受到架构创新引起的快速进展的启发(5年内,从AlexNet发展到Transformer),许多研究人员开始寻求更好的架构先验。人们争相下注,希望设计出比Transformer更优的架构。事实上,自Transformer以来,人们确实已经开发出了更好的架构——但问题是,为什么自GPT-4以来,我们却很难‘感觉到’有任何类似的巨大提升了?”
1. 范式转变
计算密集(Compute-bound)。曾几何时,方法随着计算资源的增加而扩展,更高效的方法有着更好的表现。其中的关键在于,将数据尽可能高效地打“塞进”模型中,这些方法不仅取得了更好的结果,而且似乎依然随着规模扩大而不断提升。
数据密集(Data-bound):实际上,研究并非无用。自transformer之后,研究社区已开发出更优的方法,比如SSMs(Albert Gu等人,2021)和Mamba(Albert Gu等人,2023),以及更多。但我们并不认为它们是“必然更好”的成果:在给定的训练计算下,我们仍然应该训练一个表现更好的transformer。
但在数据受限下,选择可能就更多了:所有方法的性能最终都会趋同!因此,我们应选择最适合推理的方法。
2. 研究人员应该做什么?
现在假设,我们不仅仅关心推理(即注重产品),而是关心渐近性能(即实现AGI)。
显然,优化架构这件事是错误的。
确定如何截断你的Q-函数轨迹也绝对是错误的。
手工创建新数据集无法实现模型扩展。
新的时序高斯探索方法也可能无法扩展模型。
社区大多数人已经达成这样一个共识:我们应该研究如何利用数据的新方法。
就下一个 token 预测而言,互联网是理想的解决方案:它为这种基于序列的方法提供了丰富的序列相关数据。
“与其通过创建大量监督数据集来手动指定要预测的内容......不如想办法从‘外界’的所有事物中学习并进行预测。”
“你可以将每次构建数据集看作是将世界上其他所有事物的重要性设为 0,而将数据集中所有事物的重要性设为 1。”
“如果我们削弱互联网的多样性,模型在RL任务中的熵将显著降低。”
“如果我们不得不手动整理数据集,那么整理的内容与人们认为有用的功能之间就会存在矛盾。”
“真正令人兴奋的应该是为RL寻找(或创造)新的数据源!”
本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437047.html