当前位置：首页 > 科技资讯 > 正文

AI自主发现强化学习算法：未来AI的变革

主机测评网
科技资讯
2026-05-07
822

人工智能（AI）的核心目标之一是设计出能够在复杂环境中自主预测、行动并实现目标的智能体（Agent）。然而，尽管强化学习（RL）已研究数十年，但让智能体自主开发高效RL算法的挑战依然存在。

针对这一挑战，Google DeepMind团队提出一种方法，通过多代智能体在不同环境中的交互经验来自主发现RL规则。

在大型实验中，DiscoRL不仅在Atari基准测试中超越所有现有规则，更在全新挑战性基准测试中表现优异，击败了多项主流RL算法。相关研究已在权威科学期刊 Nature 上发表。

AI自主发现强化学习算法：未来AI的变革 AI 强化学习自主发现规则生成第1张

论文链接：https://www.nature.com/articles/s41586-025-09761-x

这表明，未来用于构建高级AI的RL算法，可能不再需要人工设计，而是由智能体自身经验自动发现。

智能体如何自主发现RL算法？

据论文描述，他们的方法涉及两种优化：智能体优化与元优化。

智能体参数通过更新其策略和预测来优化，以接近RL规则生成的目标。同时，通过更新RL规则的目标来优化元参数，从而最大化智能体的累积奖励。

AI自主发现强化学习算法：未来AI的变革 AI 强化学习自主发现规则生成第2张

图｜智能体自主发现RL算法的全过程：(a) 发现过程：多个智能体在不同环境中并行交互与训练，遵循由元网络定义的学习规则；元网络在此过程中不断优化以提升整体表现；(b) 智能体结构：每个智能体输出策略（π）、观测预测（y）、动作预测（z）、动作价值（q）与辅助策略预测（p），其中y与z的语义由元网络确定；(c) 元网络结构：元网络接收智能体的输出轨迹及环境奖励与终止信号，生成针对当前与未来时刻的目标预测；智能体据此最小化预测误差进行更新；(d) 元优化过程：通过对智能体更新过程的反向传播计算元梯度，优化元参数，以最大化智能体在环境中的累计回报。

在智能体优化方面，研究团队使用Kullback–Leibler散度衡量差距，确保训练过程的稳定性与普适性。智能体会输出策略、观测预测和动作预测三类结果，元网络为其生成学习目标。智能体再据此更新自身，逐步改进策略。同时，模型引入辅助损失，优化预定义的动作价值与策略预测，使学习过程更稳定、高效。

在元优化方面，研究团队让多个智能体在不同环境中独立学习，元网络根据整体表现计算元梯度并调整参数。智能体参数定期重置，使学习规则能在有限时间内迅速提升表现。元梯度的计算结合智能体的更新过程与标准强化学习目标的优化，由反向传播与优势行动者-评论家（A2C）算法完成，并配有一个专用于元学习阶段的价值函数进行评估。

最强RL算法，AI造

为验证DiscoRL，团队采用四分位数平均值（IQM）作为综合性能指标，该指标基于多任务基准测试的标准化分数，已被证实具有统计学可靠性。

1. Atari实验

Atari基准测试是强化学习领域的代表性评估标准。为验证算法自动发现能力，团队基于57款Atari游戏元训练出Disco57规则，并在相同游戏中评估。

评估时使用与MuZero相当规模的网络架构，结果显示，Disco57的IQM达13.86，在Atari基准上超越包括MuZero、Dreamer在内的所有现有强化学习规则，且在实际运行效率上显著优于最先进的MuZero。

AI自主发现强化学习算法：未来AI的变革 AI 强化学习自主发现规则生成第3张

图｜Disco57在Atari实验中的评估结果。横轴表示环境交互步数（以百万为单位），纵轴表示在基准测试中IQM得分。

2. 泛化能力

研究团队进一步评估了Disco57的通用性，在多个未见过的独立基准测试上进行测试。在16个ProcGen二维游戏上，Disco57超越包括MuZero和PPO在内的所有已发表方法；在Crafter基准测试中也表现出竞争力；在NetHack NeurIPS 2021挑战赛中获得第三名，且未使用任何领域特定知识。对比在相同设置下训练的IMPALA智能体，Disco57明显更高效。此外，它在网络规模、重放比例和超参数调整等多种设置下也表现鲁棒。

AI自主发现强化学习算法：未来AI的变革 AI 强化学习自主发现规则生成第4张