当前位置：首页 > 科技资讯 > 正文

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注

主机测评网
科技资讯
2026-03-05
820

昨日，苹果公司在arXiv平台上发布了一篇新论文，但不久后又迅速撤下，原因尚未公开。

根据提交记录，该论文早在12月6日（UTC时间）就已上传至arXiv，直到11日才正式公开，然而上线仅数小时便被火速撤回，这一反常举动引发了外界诸多猜测。

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注苹果 RLAX TPU 强化学习第1张

幸运的是，论文的v1版本已被互联网存档，让我们得以一窥其中的内容。

论文中，苹果介绍了一个基于TPU的可扩展强化学习框架RLAX，该框架专为大规模分布式训练设计。

令人意外的是，该框架并未使用苹果自研的GPU或M系列芯片，而是采用了谷歌的TPU！不仅如此，研究过程中还调用了亚马逊的云服务，并基于中国的Qwen模型进行实验。

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注苹果 RLAX TPU 强化学习第2张

论文标题：RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs

存档地址：https://arxiv.org/pdf/2512.06392v1

总的来说，这篇论文带来了多项技术突破，但也揭示了苹果AI团队的一些动态。

RLAX的作者群像

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注苹果 RLAX TPU 强化学习第3张

RLAX论文由四位核心作者完成：Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。

通讯作者为Kelvin Zou和Cheng Leong。其中Kelvin Zou曾担任苹果首席工程师，现已加入Meta成为AI研究科学家。而Cheng Leong则是苹果资深员工，现任AI基础设施主管，已在公司任职超过13年。

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注苹果 RLAX TPU 强化学习第4张

截图自LinkedIn

值得注意的是，前苹果AI负责人庞若鸣也出现在作者名单中，与其他六位作者共同署名，且注明“已离开苹果，但在任职期间对本工作有贡献”。这些作者大多在近几个月内离职：

Kelvin Zou 加入Meta
Hanzhi Zhou 入职OpenAI
Ye Ke 加入Anthropic
Floris Weers 以创始工程师身份加入一家隐身创业公司
Chong Wang 也加入Meta
Yi Zhang 现于xAI研究模型推理

RLAX：为TPU量身打造的RL框架

回到技术本身。强化学习（RL）对于现代推理语言模型至关重要，几乎所有顶尖模型都基于RL，如OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1以及Qwen 3。

苹果推出的RLAX是一个专为在大规模分布式TPU集群上高效执行先进RL算法而设计的强化学习框架，其核心设计思路值得关注。

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注苹果 RLAX TPU 强化学习第5张

极致解耦与抢占式调度

RLAX采用参数-服务器架构，主训练器定期将更新后的权重推送到参数服务器，同时一组推理工作器拉取最新权重并生成新的采样数据。

该团队通过系统级技术将训练器、推理工作器和验证器在逻辑上分离，这种逻辑解耦使RLAX能灵活独立地为各组件分配计算资源。

最关键的是，RLAX完全支持抢占式调度，当更高优先级任务（如在线推理）出现时，系统可立即回收TPU资源，而不会导致训练中断。

灵活的策略支持

RLAX致力于解决大规模LLM后训练RL中的关键挑战，尤其是高效处理On-policy和Off-policy RL。

为此，RLAX提供了可编程配置选项，允许用户设置“陈旧度界限”，指定推理工作器拉取新权重的频率以及训练器能容忍的最大Rollout陈旧度，从而在On-policy和Off-policy RL之间灵活切换。

Oubliette：代码的“地牢”

在验证器设计上，苹果工程师展现了一种黑色幽默。为了高效验证代码执行，他们将标准Python依赖项容器化，并调用亚马逊AWS Lambda服务，命名为Oubliette。

“Oubliette”源自法语，原指城堡中仅有一个出口的地下牢房，用于“遗忘”囚犯。苹果工程师借此隐喻无状态验证环境：代码和测试数据被投入这个基于Lambda的“地牢”，执行完毕后环境即刻销毁，仿佛从未存在。

性能表现

实验阶段，一个“缝合怪”诞生了：

算力底座：谷歌TPU v5p（共1024张）。
验证环境：亚马逊AWS Lambda。
基础模型：阿里开源的QwQ-32B。

换句话说，苹果工程师在美国用谷歌TPU，调亚马逊Serverless服务，优化中国开源的Qwen模型。

结果令人印象深刻：RLAX仅用12小时48分钟，在1024个v5p TPU上将QwQ-32B的pass@8准确率提升了12.8%，同时保持了训练期间对任务抢占的鲁棒性。

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注苹果 RLAX TPU 强化学习第6张

这种跨平台、跨云、跨模型的技术融合，在苹果以往封闭生态中难以想象。这折射出两个趋势：第一，AI基础设施领域实用主义压倒门户之见；第二，国产模型（尤其是Qwen和DeepSeek）在代码推理领域的统治力已不容忽视。

消失的1.0：数值幽灵

在论文第4页和第9页，苹果披露了一个令系统工程师头疼的Bug。

在强化学习中，On-policy训练的理论基石——重要性采样比率r(θ)应恒等于1.0，因为行为策略与当前策略一致。

但在TPU实战中，团队发现：1.0竟然不等于1.0。

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注苹果 RLAX TPU 强化学习第7张

根源在于bfloat16浮点数的非结合律特性，即(a+b)+c与a+(b+c)可能存在微小差异。

推理时：JAX编译器为追求速度融合算子。
训练时：需保留中间值计算梯度，算子融合策略不同。

这种计算顺序差异在bfloat16下被放大，导致推理端与训练端概率无法对齐，最终训练崩溃。

苹果的解决方案粗暴有效：在训练器中强制重算，禁用大部分激活值保存，让训练端计算图模仿推理端顺序，虽牺牲一点速度，但解决了数值问题。

这对从事LLM后训练的工程师极具参考价值。

结语

尽管论文已撤稿，但RLAX证明了苹果在AI基础设施上仍具备世界级工程能力。然而，随着核心成员分散至Meta、OpenAI、Anthropic和xAI，这篇论文似乎也成了苹果AI阶段的一个注脚。

免费服务器免费vps 云服务器

本文由主机测评网于2026-03-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260328847.html

苹果神秘撤稿RLAX论文背后：用谷歌TPU优化阿里Qwen，强化学习框架引发关注

RLAX的作者群像