当前位置：首页 > 科技资讯 > 正文

苹果神秘撤稿论文：揭秘RLAX框架与AI布局

近日，苹果在arXiv上发布了一篇新论文，但很快又将其撤下，原因尚未公开。尽管撤稿迅速，但这篇论文的提交历史还是引起了广泛关注。

根据提交记录，该论文已在12月6日（UTC）提交至arXiv，经过5天的等待，于11日公开上线，但随后又被迅速撤稿。这一系列操作让人不禁好奇其中缘由。

苹果神秘撤稿论文：揭秘RLAX框架与AI布局苹果 RLAX TPU 强化学习第1张

幸运的是，该论文的v1版本已被互联网记录，使得我们得以一探究竟。

论文中，苹果揭示了他们开发的基于TPU的可扩展RL框架RLAX。

没错，你没有看错，这次合作的对象并非GPU或自家的M系列芯片，而是谷歌的TPU！此外，研究还涉及了亚马逊的云服务和中国的Qwen模型。

苹果神秘撤稿论文：揭秘RLAX框架与AI布局苹果 RLAX TPU 强化学习第2张

论文标题：RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs

论文地址：https://arxiv.org/pdf/2512.06392v1

总之，这篇论文的看点颇多。

在深入探讨其研究成果之前，我们先来关注下作者名单。

RLAX的作者们

苹果神秘撤稿论文：揭秘RLAX框架与AI布局苹果 RLAX TPU 强化学习第3张

RLAX论文共有四名核心作者：Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。

通讯作者则是Kelvin Zou和Cheng Leong。其中，Kelvin Zou曾在苹果担任Principal Engineer，现已加入Meta成为AI研究科学家。而Cheng Leong则在苹果工作了超过13年，现任苹果AI Infra主管。

苹果神秘撤稿论文：揭秘RLAX框架与AI布局苹果 RLAX TPU 强化学习第4张

截图自LinkedIn

此外，作者名单中还出现了庞若鸣的名字。这位已加入Meta的前苹果AI负责人与其他六位作者共同出现在论文的第一页底部，并注明“已离开苹果公司。他们在受雇于苹果公司期间为这项工作做出了贡献。”且他们基本都在前几月刚刚离职。

简单搜索这些作者的履历可以发现：

回到技术层面。强化学习（RL）在现代推理语言模型中的重要性不言而喻，几乎所有顶尖模型都基于RL推理。苹果开发的RLAX是一个专为在大规模分布式TPU集群上高效执行先进RL算法而设计的框架。

苹果神秘撤稿论文：揭秘RLAX框架与AI布局苹果 RLAX TPU 强化学习第5张

RLAX采用了参数-服务器（Parameter-Server）架构。主训练器会定期推送更新后的模型权重至参数服务器。同时，一组推理工作器会拉取最新权重并生成新的采样数据。

该团队引入了一系列系统级技术，将训练器、推理工作器和验证器在逻辑上分离。这种逻辑分离使得RLAX能够灵活且独立地为各组件分配计算资源。

尤为重要的是，RLAX完全支持抢占式调度。这意味着当有更高优先级的任务（如在线推理负载）需求时，系统能立即回收TPU资源，而不会导致训练崩溃。

RLAX致力于解决大规模LLM后训练RL过程中的关键挑战，尤其是如何高效处理On-policy和Off-policy RL。

为此，RLAX提供了可编程的配置选项。用户可以设定“陈旧度界限”，指定推理工作器拉取新权重的频率以及训练器所能容忍的最大Rollout陈旧度。这使用户能在On-policy和Off-policy RL间灵活选择。

在验证器的设计上，苹果工程师展现了一种独特的黑色幽默。

验证器需针对训练语料库中每种编程语言进行代码执行验证。为高效且确定性地验证Python程序，他们将标准Python依赖项容器化。

为运行大规模代码测试，他们调用了亚马逊的AWSLambda服务，并命名为“Oubliette”。

“Oubliette”源自法语，原意是城堡中只有一个出口（通常是天花板上的活板门）的地下地牢，用于“遗忘”囚犯。

苹果工程师借此词隐喻他们的无状态验证环境：代码和测试数据被扔进基于AWSLambda的“地牢”，测试完成后整个环境即刻销毁，就像代码从未存在过一样。

有趣的是，在实验阶段，我们看到了一个“缝合怪”的诞生：

苹果神秘撤稿论文：揭秘RLAX框架与AI布局苹果 RLAX TPU 强化学习第6张

苹果神秘撤稿论文：揭秘RLAX框架与AI布局苹果 RLAX TPU 强化学习第7张

本文由主机测评网于2026-05-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260546302.html