当前位置:首页 > 科技资讯 > 正文

苹果RLAX论文深度解析:TPU强化学习框架与撤稿内幕

近日,苹果公司的一篇新研究论文在arXiv平台上公开发布后突然被撤回,具体原因尚未明确。

通过查阅论文的提交历史,发现该论文早在12月6日(UTC时间)就已提交至arXiv,直到11日已历时五天,但在公开上线后迅速被撤回,这一举动引发了外界广泛猜测。

苹果RLAX论文深度解析:TPU强化学习框架与撤稿内幕 苹果AI研究 RLAX框架 TPU训练 论文撤稿 第1张

所幸该论文的v1版本已被互联网存档,使我们仍能查阅并深入分析其内容。

论文中,苹果揭示了其开发的一款基于TPU的可扩展强化学习框架RLAX

值得注意的是,该框架并非使用苹果自家芯片或英伟达GPU,而是依托谷歌的TPU,并在研究中采用了亚马逊云服务以及中国的Qwen模型。

苹果RLAX论文深度解析:TPU强化学习框架与撤稿内幕 苹果AI研究 RLAX框架 TPU训练 论文撤稿 第2张

论文标题:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs

论文地址:https://arxiv.org/pdf/2512.06392v1

总体而言,这篇论文贡献颇多。

但在具体介绍研究成果前,有必要关注其作者名单。

RLAX的作者团队

苹果RLAX论文深度解析:TPU强化学习框架与撤稿内幕 苹果AI研究 RLAX框架 TPU训练 论文撤稿 第3张

RLAX论文拥有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。

通讯作者为Kelvin Zou和Cheng Leong。其中Kelvin Zou曾担任苹果首席工程师,现已入职Meta担任AI研究科学家;Cheng Leong则是苹果工作超过13年的资深员工,现任苹果AI基础设施主管。

苹果RLAX论文深度解析:TPU强化学习框架与撤稿内幕 苹果AI研究 RLAX框架 TPU训练 论文撤稿 第4张

截图自LinkedIn

此外,作者名单中还出现了庞若鸣的名字。

这位前苹果AI负责人与其他六位作者一同列于论文首页底部,标注为“已离开苹果公司。他们在受雇于苹果公司期间为这项工作做出了贡献。”且他们大多在近期离职。

简要浏览这些作者履历可见:

  • Kelvin Zou加入Meta
  • Hanzhi Zhou入职OpenAI
  • Ye Ke加入Anthropic
  • Floris Weers以创始工程师身份加入一家隐身创业公司
  • Chong Wang也加入Meta
  • Yi Zhang现于xAI研究模型推理

RLAX:专为TPU优化而设计

强化学习(RL)对现代推理语言模型至关重要,当前顶尖模型如OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1及Qwen 3均基于RL推理。

苹果开发的RLAX是一个专为大规模分布式TPU集群高效执行先进RL算法而设计的强化学习框架

苹果RLAX论文深度解析:TPU强化学习框架与撤稿内幕 苹果AI研究 RLAX框架 TPU训练 论文撤稿 第5张

高度解耦与抢占式调度

RLAX采用参数-服务器架构。主训练器定期将更新后的模型权重推送至参数服务器,同时一组推理工作器拉取最新权重并生成新采样数据。

团队引入系统级技术,将训练器、推理工作器和验证器逻辑分离,实现各组件计算资源的灵活独立分配。

最关键的是,RLAX全面支持抢占式调度,当更高优先级任务(如在线推理负载)出现时,系统可立即回收TPU资源而不导致训练中断。

灵活策略支持

RLAX致力于解决大规模LLM后训练RL中的关键挑战,特别是高效处理在线策略和离线策略RL。

为此,RLAX提供可编程配置选项,用户可设置“陈旧度界限”,指定推理工作器拉取新权重的频率及训练器容忍的最大Rollout陈旧度,从而在在线与离线策略RL间灵活切换。

Oubliette:代码执行验证环境

在验证器设计上,苹果工程师展现了独特幽默。验证器需针对训练语料库中每种编程语言执行代码验证。为高效确定性地验证Python程序,他们将标准Python依赖项容器化。

为运行大规模代码测试,他们调用亚马逊AWS Lambda服务,并将其命名为“Oubliette”。

“Oubliette”源自法语,原指城堡中仅有一个出口的地下地牢,用于“遗忘”囚犯。苹果工程师以此隐喻无状态验证环境:代码和测试数据被投入此基于AWS Lambda的“地牢”,测试完成后环境即刻销毁,仿佛从未存在。

性能表现如何?

实验阶段呈现了一个“技术融合”场景:

  • 算力底座:使用谷歌TPU v5p(实验采用1024张TPU v5p)。
  • 验证环境:调用亚马逊AWS Lambda服务。
  • 基础模型:采用中国阿里团队开源的QwQ-32B模型。

换言之,苹果工程师在美国利用谷歌TPU和亚马逊Serverless服务,优化中国开源的Qwen模型

结果令人瞩目。RLAX仅用12小时48分钟,在1024个v5p TPU上将QwQ-32B的pass@8准确率提升12.8%,同时在训练期间保持对任务抢占的鲁棒性。

苹果RLAX论文深度解析:TPU强化学习框架与撤稿内幕 苹果AI研究 RLAX框架 TPU训练 论文撤稿 第6张

这种“跨生态协作”在苹果封闭环境中罕见,侧面印证:第一,AI基础设施领域实用主义超越门户之见;第二,国产模型(如Qwen和DeepSeek)在代码推理领域已具备强大影响力,甚至成为苹果的“试金石”。

消失的1.0:数值精度挑战

在RLAX论文第4页和第9页,苹果披露了一个底层数值Bug。

在强化学习中,在线策略训练的理论基石是重要性采样比率r(θ)应恒等于1.0,因为行为策略与当前策略完全一致。

但在TPU训练实践中,苹果团队发现:1.0并不等于1.0

苹果RLAX论文深度解析:TPU强化学习框架与撤稿内幕 苹果AI研究 RLAX框架 TPU训练 论文撤稿 第7张

问题根源在于bfloat16浮点数格式的非结合律特性。简单而言,在计算机中(a+b)+c与a+(b+c)可能存在微小比特级差异。

  • 推理时:JAX编译器为追求极速,会融合算子。
  • 训练时:为计算梯度反向传播,编译器须保留中间值,导致算子融合策略与推理时不同。

这种计算顺序微小差异在bfloat16下被放大,致使推理端与训练端概率无法对齐,进而引发训练崩溃。

苹果的解决方案直接有效:在训练器中强制重算,禁用大部分激活值保存,迫使训练端计算图“模仿”推理端计算顺序。虽牺牲少许速度,但消除了数值问题。

对于从事LLM后训练的工程师,此Debug过程极具参考价值。

结语

尽管目前已被撤稿,但RLAX证明了苹果在AI基础设施领域仍拥有顶尖工程能力,能够驾驭复杂分布式系统并解决底层数值难题。

但随着多位关键人物分散至Meta、OpenAI、Anthropic和xAI,这篇论文似乎也成为苹果AI现阶段发展的一个缩影。