强化学习无疑是当下AI领域最热门的话题之一,而新算法的涌现更是层出不穷。
那么,问题也随之而来:AI能否自行发现强大的强化学习算法呢?
近日,谷歌DeepMind团队在Nature上发表的一篇论文探讨了这一可能性,并给出了非常积极的结果:机器确实能够自主发现性能达到SOTA的强化学习规则,且其表现优于人工设计的规则。
标题:Discovering state-of-the-art reinforcement learning algorithms
地址:https://www.nature.com/articles/s41586-025-09761-x
值得一提的是,该团队的负责人、通讯作者是强化学习领域的引领研究者David Silver,他因领导著名的AlphaGo项目而被称为“AlphaGo之父”。截至目前,David Silver的引用量已接近27万。本研究共有四位共同一作:Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。
具体到方法上,该团队的思路是:在大量复杂环境中,基于大量智能体的经验积累,进行元学习(meta-learning)。这个方法能够发现智能体在更新策略与预测时所遵循的强化学习规则。
该团队还进行了大规模实验,结果发现这一“自动发现的规则”在经典的Atari基准测试上超越了所有现有方法,并且在若干它从未见过的高难度基准测试上也优于多种SOTA强化学习算法。
这一研究结果意义非凡。它预示着未来实现高级AI所需的强化学习算法或许将不再依赖人工设计,而是能够从智能体自身的经验中自动涌现与进化。
该团队的发现方法涉及两种类型的优化:智能体优化和元优化。智能体参数通过将其策略和预测更新至强化学习规则所产生的目标来进行优化。与此同时,强化学习规则的元参数则通过更新其目标来进行优化,以最大化智能体的累积奖励。
许多强化学习研究关注的是智能体应该做出什么预测(例如,价值),以及应该使用什么损失函数来学习这些预测(例如,TD学习)和改进策略(例如,策略梯度)。
该团队没有采用手工设计的方式,而是定义了一个没有预定义语义、富有表现力的预测空间,并通过使用元网络进行元学习,来找出智能体需要优化的内容。他们希望在保留现有强化学习算法中核心思想的同时,也支持广阔的新颖算法可能性空间。
为此,该团队让由θ参数化的智能体除了输出策略π之外,还输出两种类型的预测:一个基于观测的向量预测y(s)和一个基于动作的向量预测z(s,a),其中s和a分别是观测和动作(见下图)。
很大一部分现代强化学习规则采用了RL的“前向视图”。在这种视图下,RL规则接收一个从时间步t到t+n的轨迹,并利用这些信息来更新智能体的预测或策略。它们通常会将预测或策略朝着“引导目标”更新,即朝着未来的预测值更新。
智能体的参数(θ)会被更新,以最小化其预测和策略与来自元网络的目标之间的距离。智能体的损失函数可以表示为:
该团队的目标是发现一个RL规则(由元参数η表示的元网络来代表),它能让智能体在各种训练环境中最大化奖励。这个发现目标J(η)及其元梯度可以表示为:
该团队在一套复杂的环境中,通过一个大型智能体集群实现了新发现方法。
Atari基准是RL历史上研究最多的基准之一,由57款Atari 26游戏组成。为了观察直接从该基准中发现的规则能有多强大,该团队元训练了一个RL规则,命名为Disco57,并在同样的57款游戏上对其进行了评估。
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543488.html