当前位置:首页 > 科技资讯 > 正文

苹果神秘撤稿论文:揭秘RLAX框架与AI布局

近日,苹果在arXiv上发布了一篇新论文,但很快又将其撤下,原因尚未公开。尽管撤稿迅速,但这篇论文的提交历史还是引起了广泛关注。

根据提交记录,该论文已在12月6日(UTC)提交至arXiv,经过5天的等待,于11日公开上线,但随后又被迅速撤稿。这一系列操作让人不禁好奇其中缘由。

苹果神秘撤稿论文:揭秘RLAX框架与AI布局 苹果 RLAX TPU 强化学习 第1张

幸运的是,该论文的v1版本已被互联网记录,使得我们得以一探究竟。

论文中,苹果揭示了他们开发的基于TPU的可扩展RL框架RLAX

没错,你没有看错,这次合作的对象并非GPU或自家的M系列芯片,而是谷歌的TPU!此外,研究还涉及了亚马逊的云服务和中国的Qwen模型。

苹果神秘撤稿论文:揭秘RLAX框架与AI布局 苹果 RLAX TPU 强化学习 第2张

论文标题:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs

论文地址:https://arxiv.org/pdf/2512.06392v1

总之,这篇论文的看点颇多。

在深入探讨其研究成果之前,我们先来关注下作者名单。

RLAX的作者们

苹果神秘撤稿论文:揭秘RLAX框架与AI布局 苹果 RLAX TPU 强化学习 第3张

RLAX论文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。

通讯作者则是Kelvin Zou和Cheng Leong。其中,Kelvin Zou曾在苹果担任Principal Engineer,现已加入Meta成为AI研究科学家。而Cheng Leong则在苹果工作了超过13年,现任苹果AI Infra主管。

苹果神秘撤稿论文:揭秘RLAX框架与AI布局 苹果 RLAX TPU 强化学习 第4张

截图自LinkedIn

此外,作者名单中还出现了庞若鸣的名字。这位已加入Meta的前苹果AI负责人与其他六位作者共同出现在论文的第一页底部,并注明“已离开苹果公司。他们在受雇于苹果公司期间为这项工作做出了贡献。”且他们基本都在前几月刚刚离职。

简单搜索这些作者的履历可以发现:

  • Kelvin Zou加入了Meta
  • Hanzhi Zhou已入职OpenAI
  • Ye Ke加入了Anthropic
  • Floris Weers以创始工程师身份加入了一家隐身状态的创业公司
  • Chong Wang也加入了Meta
  • Yi Zhang现在xAI研究模型推理。

RLAX:为TPU而生

回到技术层面。强化学习(RL)在现代推理语言模型中的重要性不言而喻,几乎所有顶尖模型都基于RL推理。苹果开发的RLAX是一个专为在大规模分布式TPU集群上高效执行先进RL算法而设计的框架。

苹果神秘撤稿论文:揭秘RLAX框架与AI布局 苹果 RLAX TPU 强化学习 第5张

极致解耦与抢占式调度

RLAX采用了参数-服务器(Parameter-Server)架构。主训练器会定期推送更新后的模型权重至参数服务器。同时,一组推理工作器会拉取最新权重并生成新的采样数据。

该团队引入了一系列系统级技术,将训练器、推理工作器和验证器在逻辑上分离。这种逻辑分离使得RLAX能够灵活且独立地为各组件分配计算资源。

尤为重要的是,RLAX完全支持抢占式调度。这意味着当有更高优先级的任务(如在线推理负载)需求时,系统能立即回收TPU资源,而不会导致训练崩溃。

灵活的策略支持

RLAX致力于解决大规模LLM后训练RL过程中的关键挑战,尤其是如何高效处理On-policy和Off-policy RL。

为此,RLAX提供了可编程的配置选项。用户可以设定“陈旧度界限”,指定推理工作器拉取新权重的频率以及训练器所能容忍的最大Rollout陈旧度。这使用户能在On-policy和Off-policy RL间灵活选择。

Oubliette:代码的地牢之旅

在验证器的设计上,苹果工程师展现了一种独特的黑色幽默。

验证器需针对训练语料库中每种编程语言进行代码执行验证。为高效且确定性地验证Python程序,他们将标准Python依赖项容器化。

为运行大规模代码测试,他们调用了亚马逊的AWSLambda服务,并命名为“Oubliette”。

“Oubliette”源自法语,原意是城堡中只有一个出口(通常是天花板上的活板门)的地下地牢,用于“遗忘”囚犯。

苹果工程师借此词隐喻他们的无状态验证环境:代码和测试数据被扔进基于AWSLambda的“地牢”,测试完成后整个环境即刻销毁,就像代码从未存在过一样。

表现如何?

有趣的是,在实验阶段,我们看到了一个“缝合怪”的诞生:

  • 算力底座:如论文标题所示,非自家芯片也非英伟达GPU,而是谷歌的TPUv5P(使用了1024张TPUv5P进行实验)。
  • 验证环境:为运行大规模代码测试,他们调用了亚马逊的AWSLambda服务。
  • 基础模型:他们用来验证框架的模型并非Apple Intelligence的底座,而是来自中国阿里团队开源的QwQ-32B。

苹果神秘撤稿论文:揭秘RLAX框架与AI布局 苹果 RLAX TPU 强化学习 第6张

苹果神秘撤稿论文:揭秘RLAX框架与AI布局 苹果 RLAX TPU 强化学习 第7张