当前位置：首页 > 科技资讯 > 正文

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕

主机测评网
科技资讯
2026-02-09
859

近日，苹果公司的一篇新研究论文在arXiv平台上公开发布后突然被撤回，具体原因尚未明确。

通过查阅论文的提交历史，发现该论文早在12月6日（UTC时间）就已提交至arXiv，直到11日已历时五天，但在公开上线后迅速被撤回，这一举动引发了外界广泛猜测。

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕苹果AI研究 RLAX框架 TPU训练论文撤稿第1张

所幸该论文的v1版本已被互联网存档，使我们仍能查阅并深入分析其内容。

论文中，苹果揭示了其开发的一款基于TPU的可扩展强化学习框架RLAX。

值得注意的是，该框架并非使用苹果自家芯片或英伟达GPU，而是依托谷歌的TPU，并在研究中采用了亚马逊云服务以及中国的Qwen模型。

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕苹果AI研究 RLAX框架 TPU训练论文撤稿第2张

论文标题：RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs

论文地址：https://arxiv.org/pdf/2512.06392v1

总体而言，这篇论文贡献颇多。

但在具体介绍研究成果前，有必要关注其作者名单。

RLAX的作者团队

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕苹果AI研究 RLAX框架 TPU训练论文撤稿第3张

RLAX论文拥有四名核心作者：Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。

通讯作者为Kelvin Zou和Cheng Leong。其中Kelvin Zou曾担任苹果首席工程师，现已入职Meta担任AI研究科学家；Cheng Leong则是苹果工作超过13年的资深员工，现任苹果AI基础设施主管。

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕苹果AI研究 RLAX框架 TPU训练论文撤稿第4张

截图自LinkedIn

此外，作者名单中还出现了庞若鸣的名字。

这位前苹果AI负责人与其他六位作者一同列于论文首页底部，标注为“已离开苹果公司。他们在受雇于苹果公司期间为这项工作做出了贡献。”且他们大多在近期离职。

简要浏览这些作者履历可见：

Kelvin Zou加入Meta
Hanzhi Zhou入职OpenAI
Ye Ke加入Anthropic
Floris Weers以创始工程师身份加入一家隐身创业公司
Chong Wang也加入Meta
Yi Zhang现于xAI研究模型推理

RLAX：专为TPU优化而设计

强化学习（RL）对现代推理语言模型至关重要，当前顶尖模型如OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1及Qwen 3均基于RL推理。

苹果开发的RLAX是一个专为大规模分布式TPU集群高效执行先进RL算法而设计的强化学习框架。

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕苹果AI研究 RLAX框架 TPU训练论文撤稿第5张

高度解耦与抢占式调度

RLAX采用参数-服务器架构。主训练器定期将更新后的模型权重推送至参数服务器，同时一组推理工作器拉取最新权重并生成新采样数据。

团队引入系统级技术，将训练器、推理工作器和验证器逻辑分离，实现各组件计算资源的灵活独立分配。

最关键的是，RLAX全面支持抢占式调度，当更高优先级任务（如在线推理负载）出现时，系统可立即回收TPU资源而不导致训练中断。

灵活策略支持

RLAX致力于解决大规模LLM后训练RL中的关键挑战，特别是高效处理在线策略和离线策略RL。

为此，RLAX提供可编程配置选项，用户可设置“陈旧度界限”，指定推理工作器拉取新权重的频率及训练器容忍的最大Rollout陈旧度，从而在在线与离线策略RL间灵活切换。

Oubliette：代码执行验证环境

在验证器设计上，苹果工程师展现了独特幽默。验证器需针对训练语料库中每种编程语言执行代码验证。为高效确定性地验证Python程序，他们将标准Python依赖项容器化。

为运行大规模代码测试，他们调用亚马逊AWS Lambda服务，并将其命名为“Oubliette”。

“Oubliette”源自法语，原指城堡中仅有一个出口的地下地牢，用于“遗忘”囚犯。苹果工程师以此隐喻无状态验证环境：代码和测试数据被投入此基于AWS Lambda的“地牢”，测试完成后环境即刻销毁，仿佛从未存在。

性能表现如何？

实验阶段呈现了一个“技术融合”场景：

算力底座：使用谷歌TPU v5p（实验采用1024张TPU v5p）。
验证环境：调用亚马逊AWS Lambda服务。
基础模型：采用中国阿里团队开源的QwQ-32B模型。

换言之，苹果工程师在美国利用谷歌TPU和亚马逊Serverless服务，优化中国开源的Qwen模型。

结果令人瞩目。RLAX仅用12小时48分钟，在1024个v5p TPU上将QwQ-32B的pass@8准确率提升12.8%，同时在训练期间保持对任务抢占的鲁棒性。

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕苹果AI研究 RLAX框架 TPU训练论文撤稿第6张

这种“跨生态协作”在苹果封闭环境中罕见，侧面印证：第一，AI基础设施领域实用主义超越门户之见；第二，国产模型（如Qwen和DeepSeek）在代码推理领域已具备强大影响力，甚至成为苹果的“试金石”。

消失的1.0：数值精度挑战

在RLAX论文第4页和第9页，苹果披露了一个底层数值Bug。

在强化学习中，在线策略训练的理论基石是重要性采样比率r(θ)应恒等于1.0，因为行为策略与当前策略完全一致。

但在TPU训练实践中，苹果团队发现：1.0并不等于1.0。

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕苹果AI研究 RLAX框架 TPU训练论文撤稿第7张

问题根源在于bfloat16浮点数格式的非结合律特性。简单而言，在计算机中(a+b)+c与a+(b+c)可能存在微小比特级差异。

推理时：JAX编译器为追求极速，会融合算子。
训练时：为计算梯度反向传播，编译器须保留中间值，导致算子融合策略与推理时不同。

这种计算顺序微小差异在bfloat16下被放大，致使推理端与训练端概率无法对齐，进而引发训练崩溃。

苹果的解决方案直接有效：在训练器中强制重算，禁用大部分激活值保存，迫使训练端计算图“模仿”推理端计算顺序。虽牺牲少许速度，但消除了数值问题。

对于从事LLM后训练的工程师，此Debug过程极具参考价值。

结语

尽管目前已被撤稿，但RLAX证明了苹果在AI基础设施领域仍拥有顶尖工程能力，能够驾驭复杂分布式系统并解决底层数值难题。

但随着多位关键人物分散至Meta、OpenAI、Anthropic和xAI，这篇论文似乎也成为苹果AI现阶段发展的一个缩影。

免费服务器高防服务器云服务器

本文由主机测评网于2026-02-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260224073.html

苹果RLAX论文深度解析：TPU强化学习框架与撤稿内幕

RLAX的作者团队