当前位置:首页 > 科技资讯 > 正文

苹果神秘撤稿RLAX论文背后:用谷歌TPU优化阿里Qwen,强化学习框架引发关注

昨日,苹果公司在arXiv平台上发布了一篇新论文,但不久后又迅速撤下,原因尚未公开。

根据提交记录,该论文早在12月6日(UTC时间)就已上传至arXiv,直到11日才正式公开,然而上线仅数小时便被火速撤回,这一反常举动引发了外界诸多猜测。

苹果神秘撤稿RLAX论文背后:用谷歌TPU优化阿里Qwen,强化学习框架引发关注 苹果  RLAX TPU 强化学习 第1张

幸运的是,论文的v1版本已被互联网存档,让我们得以一窥其中的内容。

论文中,苹果介绍了一个基于TPU的可扩展强化学习框架RLAX,该框架专为大规模分布式训练设计。

令人意外的是,该框架并未使用苹果自研的GPU或M系列芯片,而是采用了谷歌的TPU!不仅如此,研究过程中还调用了亚马逊的云服务,并基于中国的Qwen模型进行实验。

苹果神秘撤稿RLAX论文背后:用谷歌TPU优化阿里Qwen,强化学习框架引发关注 苹果  RLAX TPU 强化学习 第2张

论文标题:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs

存档地址:https://arxiv.org/pdf/2512.06392v1

总的来说,这篇论文带来了多项技术突破,但也揭示了苹果AI团队的一些动态。

RLAX的作者群像

苹果神秘撤稿RLAX论文背后:用谷歌TPU优化阿里Qwen,强化学习框架引发关注 苹果  RLAX TPU 强化学习 第3张

RLAX论文由四位核心作者完成:Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。

通讯作者为Kelvin Zou和Cheng Leong。其中Kelvin Zou曾担任苹果首席工程师,现已加入Meta成为AI研究科学家。而Cheng Leong则是苹果资深员工,现任AI基础设施主管,已在公司任职超过13年。

苹果神秘撤稿RLAX论文背后:用谷歌TPU优化阿里Qwen,强化学习框架引发关注 苹果  RLAX TPU 强化学习 第4张

截图自LinkedIn

值得注意的是,前苹果AI负责人庞若鸣也出现在作者名单中,与其他六位作者共同署名,且注明“已离开苹果,但在任职期间对本工作有贡献”。这些作者大多在近几个月内离职:

  • Kelvin Zou 加入Meta
  • Hanzhi Zhou 入职OpenAI
  • Ye Ke 加入Anthropic
  • Floris Weers 以创始工程师身份加入一家隐身创业公司
  • Chong Wang 也加入Meta
  • Yi Zhang 现于xAI研究模型推理

RLAX:为TPU量身打造的RL框架

回到技术本身。强化学习(RL)对于现代推理语言模型至关重要,几乎所有顶尖模型都基于RL,如OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1以及Qwen 3。

苹果推出的RLAX是一个专为在大规模分布式TPU集群上高效执行先进RL算法而设计的强化学习框架,其核心设计思路值得关注。

苹果神秘撤稿RLAX论文背后:用谷歌TPU优化阿里Qwen,强化学习框架引发关注 苹果  RLAX TPU 强化学习 第5张

极致解耦与抢占式调度

RLAX采用参数-服务器架构,主训练器定期将更新后的权重推送到参数服务器,同时一组推理工作器拉取最新权重并生成新的采样数据。

该团队通过系统级技术将训练器、推理工作器和验证器在逻辑上分离,这种逻辑解耦使RLAX能灵活独立地为各组件分配计算资源。

最关键的是,RLAX完全支持抢占式调度,当更高优先级任务(如在线推理)出现时,系统可立即回收TPU资源,而不会导致训练中断。

灵活的策略支持

RLAX致力于解决大规模LLM后训练RL中的关键挑战,尤其是高效处理On-policy和Off-policy RL。

为此,RLAX提供了可编程配置选项,允许用户设置“陈旧度界限”,指定推理工作器拉取新权重的频率以及训练器能容忍的最大Rollout陈旧度,从而在On-policy和Off-policy RL之间灵活切换。

Oubliette:代码的“地牢”

在验证器设计上,苹果工程师展现了一种黑色幽默。为了高效验证代码执行,他们将标准Python依赖项容器化,并调用亚马逊AWS Lambda服务,命名为Oubliette

“Oubliette”源自法语,原指城堡中仅有一个出口的地下牢房,用于“遗忘”囚犯。苹果工程师借此隐喻无状态验证环境:代码和测试数据被投入这个基于Lambda的“地牢”,执行完毕后环境即刻销毁,仿佛从未存在。

性能表现

实验阶段,一个“缝合怪”诞生了:

  • 算力底座:谷歌TPU v5p(共1024张)。
  • 验证环境:亚马逊AWS Lambda。
  • 基础模型:阿里开源的QwQ-32B。

换句话说,苹果工程师在美国用谷歌TPU,调亚马逊Serverless服务,优化中国开源的Qwen模型。

结果令人印象深刻:RLAX仅用12小时48分钟,在1024个v5p TPU上将QwQ-32B的pass@8准确率提升了12.8%,同时保持了训练期间对任务抢占的鲁棒性。

苹果神秘撤稿RLAX论文背后:用谷歌TPU优化阿里Qwen,强化学习框架引发关注 苹果  RLAX TPU 强化学习 第6张

这种跨平台、跨云、跨模型的技术融合,在苹果以往封闭生态中难以想象。这折射出两个趋势:第一,AI基础设施领域实用主义压倒门户之见;第二,国产模型(尤其是Qwen和DeepSeek)在代码推理领域的统治力已不容忽视。

消失的1.0:数值幽灵

在论文第4页和第9页,苹果披露了一个令系统工程师头疼的Bug。

在强化学习中,On-policy训练的理论基石——重要性采样比率r(θ)应恒等于1.0,因为行为策略与当前策略一致。

但在TPU实战中,团队发现:1.0竟然不等于1.0

苹果神秘撤稿RLAX论文背后:用谷歌TPU优化阿里Qwen,强化学习框架引发关注 苹果  RLAX TPU 强化学习 第7张

根源在于bfloat16浮点数的非结合律特性,即(a+b)+c与a+(b+c)可能存在微小差异。

  • 推理时:JAX编译器为追求速度融合算子。
  • 训练时:需保留中间值计算梯度,算子融合策略不同。

这种计算顺序差异在bfloat16下被放大,导致推理端与训练端概率无法对齐,最终训练崩溃。

苹果的解决方案粗暴有效:在训练器中强制重算,禁用大部分激活值保存,让训练端计算图模仿推理端顺序,虽牺牲一点速度,但解决了数值问题。

这对从事LLM后训练的工程师极具参考价值。

结语

尽管论文已撤稿,但RLAX证明了苹果在AI基础设施上仍具备世界级工程能力。然而,随着核心成员分散至Meta、OpenAI、Anthropic和xAI,这篇论文似乎也成了苹果AI阶段的一个注脚。