近日,苹果在arXiv上发布了一篇新论文,但很快又将其撤下,原因尚未公开。尽管撤稿迅速,但这篇论文的提交历史还是引起了广泛关注。
根据提交记录,该论文已在12月6日(UTC)提交至arXiv,经过5天的等待,于11日公开上线,但随后又被迅速撤稿。这一系列操作让人不禁好奇其中缘由。
幸运的是,该论文的v1版本已被互联网记录,使得我们得以一探究竟。
论文中,苹果揭示了他们开发的基于TPU的可扩展RL框架RLAX。
没错,你没有看错,这次合作的对象并非GPU或自家的M系列芯片,而是谷歌的TPU!此外,研究还涉及了亚马逊的云服务和中国的Qwen模型。
论文标题:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
总之,这篇论文的看点颇多。
在深入探讨其研究成果之前,我们先来关注下作者名单。
RLAX论文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。
通讯作者则是Kelvin Zou和Cheng Leong。其中,Kelvin Zou曾在苹果担任Principal Engineer,现已加入Meta成为AI研究科学家。而Cheng Leong则在苹果工作了超过13年,现任苹果AI Infra主管。
截图自LinkedIn
此外,作者名单中还出现了庞若鸣的名字。这位已加入Meta的前苹果AI负责人与其他六位作者共同出现在论文的第一页底部,并注明“已离开苹果公司。他们在受雇于苹果公司期间为这项工作做出了贡献。”且他们基本都在前几月刚刚离职。
简单搜索这些作者的履历可以发现:
回到技术层面。强化学习(RL)在现代推理语言模型中的重要性不言而喻,几乎所有顶尖模型都基于RL推理。苹果开发的RLAX是一个专为在大规模分布式TPU集群上高效执行先进RL算法而设计的框架。
RLAX采用了参数-服务器(Parameter-Server)架构。主训练器会定期推送更新后的模型权重至参数服务器。同时,一组推理工作器会拉取最新权重并生成新的采样数据。
该团队引入了一系列系统级技术,将训练器、推理工作器和验证器在逻辑上分离。这种逻辑分离使得RLAX能够灵活且独立地为各组件分配计算资源。
尤为重要的是,RLAX完全支持抢占式调度。这意味着当有更高优先级的任务(如在线推理负载)需求时,系统能立即回收TPU资源,而不会导致训练崩溃。
RLAX致力于解决大规模LLM后训练RL过程中的关键挑战,尤其是如何高效处理On-policy和Off-policy RL。
为此,RLAX提供了可编程的配置选项。用户可以设定“陈旧度界限”,指定推理工作器拉取新权重的频率以及训练器所能容忍的最大Rollout陈旧度。这使用户能在On-policy和Off-policy RL间灵活选择。
在验证器的设计上,苹果工程师展现了一种独特的黑色幽默。
验证器需针对训练语料库中每种编程语言进行代码执行验证。为高效且确定性地验证Python程序,他们将标准Python依赖项容器化。
为运行大规模代码测试,他们调用了亚马逊的AWSLambda服务,并命名为“Oubliette”。
“Oubliette”源自法语,原意是城堡中只有一个出口(通常是天花板上的活板门)的地下地牢,用于“遗忘”囚犯。
苹果工程师借此词隐喻他们的无状态验证环境:代码和测试数据被扔进基于AWSLambda的“地牢”,测试完成后整个环境即刻销毁,就像代码从未存在过一样。
有趣的是,在实验阶段,我们看到了一个“缝合怪”的诞生:
…>
本文由主机测评网于2026-05-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546302.html