近日,苹果公司的一篇新研究论文在arXiv平台上公开发布后突然被撤回,具体原因尚未明确。
通过查阅论文的提交历史,发现该论文早在12月6日(UTC时间)就已提交至arXiv,直到11日已历时五天,但在公开上线后迅速被撤回,这一举动引发了外界广泛猜测。
所幸该论文的v1版本已被互联网存档,使我们仍能查阅并深入分析其内容。
论文中,苹果揭示了其开发的一款基于TPU的可扩展强化学习框架RLAX。
值得注意的是,该框架并非使用苹果自家芯片或英伟达GPU,而是依托谷歌的TPU,并在研究中采用了亚马逊云服务以及中国的Qwen模型。
论文标题:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
论文地址:https://arxiv.org/pdf/2512.06392v1
总体而言,这篇论文贡献颇多。
但在具体介绍研究成果前,有必要关注其作者名单。
RLAX论文拥有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。
通讯作者为Kelvin Zou和Cheng Leong。其中Kelvin Zou曾担任苹果首席工程师,现已入职Meta担任AI研究科学家;Cheng Leong则是苹果工作超过13年的资深员工,现任苹果AI基础设施主管。
截图自LinkedIn
此外,作者名单中还出现了庞若鸣的名字。
这位前苹果AI负责人与其他六位作者一同列于论文首页底部,标注为“已离开苹果公司。他们在受雇于苹果公司期间为这项工作做出了贡献。”且他们大多在近期离职。
简要浏览这些作者履历可见:
强化学习(RL)对现代推理语言模型至关重要,当前顶尖模型如OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1及Qwen 3均基于RL推理。
苹果开发的RLAX是一个专为大规模分布式TPU集群高效执行先进RL算法而设计的强化学习框架。
RLAX采用参数-服务器架构。主训练器定期将更新后的模型权重推送至参数服务器,同时一组推理工作器拉取最新权重并生成新采样数据。
团队引入系统级技术,将训练器、推理工作器和验证器逻辑分离,实现各组件计算资源的灵活独立分配。
最关键的是,RLAX全面支持抢占式调度,当更高优先级任务(如在线推理负载)出现时,系统可立即回收TPU资源而不导致训练中断。
RLAX致力于解决大规模LLM后训练RL中的关键挑战,特别是高效处理在线策略和离线策略RL。
为此,RLAX提供可编程配置选项,用户可设置“陈旧度界限”,指定推理工作器拉取新权重的频率及训练器容忍的最大Rollout陈旧度,从而在在线与离线策略RL间灵活切换。
在验证器设计上,苹果工程师展现了独特幽默。验证器需针对训练语料库中每种编程语言执行代码验证。为高效确定性地验证Python程序,他们将标准Python依赖项容器化。
为运行大规模代码测试,他们调用亚马逊AWS Lambda服务,并将其命名为“Oubliette”。
“Oubliette”源自法语,原指城堡中仅有一个出口的地下地牢,用于“遗忘”囚犯。苹果工程师以此隐喻无状态验证环境:代码和测试数据被投入此基于AWS Lambda的“地牢”,测试完成后环境即刻销毁,仿佛从未存在。
实验阶段呈现了一个“技术融合”场景:
换言之,苹果工程师在美国利用谷歌TPU和亚马逊Serverless服务,优化中国开源的Qwen模型。
结果令人瞩目。RLAX仅用12小时48分钟,在1024个v5p TPU上将QwQ-32B的pass@8准确率提升12.8%,同时在训练期间保持对任务抢占的鲁棒性。
这种“跨生态协作”在苹果封闭环境中罕见,侧面印证:第一,AI基础设施领域实用主义超越门户之见;第二,国产模型(如Qwen和DeepSeek)在代码推理领域已具备强大影响力,甚至成为苹果的“试金石”。
在RLAX论文第4页和第9页,苹果披露了一个底层数值Bug。
在强化学习中,在线策略训练的理论基石是重要性采样比率r(θ)应恒等于1.0,因为行为策略与当前策略完全一致。
但在TPU训练实践中,苹果团队发现:1.0并不等于1.0。
问题根源在于bfloat16浮点数格式的非结合律特性。简单而言,在计算机中(a+b)+c与a+(b+c)可能存在微小比特级差异。
这种计算顺序微小差异在bfloat16下被放大,致使推理端与训练端概率无法对齐,进而引发训练崩溃。
苹果的解决方案直接有效:在训练器中强制重算,禁用大部分激活值保存,迫使训练端计算图“模仿”推理端计算顺序。虽牺牲少许速度,但消除了数值问题。
对于从事LLM后训练的工程师,此Debug过程极具参考价值。
尽管目前已被撤稿,但RLAX证明了苹果在AI基础设施领域仍拥有顶尖工程能力,能够驾驭复杂分布式系统并解决底层数值难题。
但随着多位关键人物分散至Meta、OpenAI、Anthropic和xAI,这篇论文似乎也成为苹果AI现阶段发展的一个缩影。
本文由主机测评网于2026-02-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224073.html