当前位置:首页 > 科技资讯 > 正文

Meta发布Code World Model:代码生成与推理的世界模型新突破

今日凌晨,Meta的FAIR团队重磅推出了Code World Model(CWM),这是一个拥有320亿参数、支持长达131k token上下文的开放权重大型语言模型,标志着代码生成领域迈入新阶段。

根据Meta官方介绍,CWM的核心目标是将“世界模型”理念引入代码生成与推理,使模型不仅能编写代码,还能模拟代码执行过程、推理程序状态,并自我检测和修复Bug,从而提升代码的可执行性和可靠性。

Meta发布Code World Model:代码生成与推理的世界模型新突破 代码世界模型  Meta FAIR 代码执行模拟 AI代码修复 第1张

值得一提的是,为了推动“代码世界模型”方向的研究,Meta此次还开源了CWM在中期训练、SFT和RL阶段的权重检查点。Meta首席AI官Alexandr Wang在X平台上呼吁:“我们鼓励研究界对这个开放权重的模型进行深入探索!”

Meta发布Code World Model:代码生成与推理的世界模型新突破 代码世界模型  Meta FAIR 代码执行模拟 AI代码修复 第2张

为什么要把“世界模型”带入代码领域?

在CWM研究论文开篇,Meta团队指出,传统代码预训练将代码视为静态文本,模型主要学习逐行预测代码的语法和模式,但缺乏对执行过程的理解。

“我们认为这还不够——要真正掌握编码,不仅要了解代码的静态结构,更要理解代码执行时的动态行为和作用。”

这种能力对软件工程师至关重要:在局部层面,他们能把握代码行如何改变变量状态;在全局层面,他们可预测代码修改对程序输出的影响。因此,CWM的核心理念是将“世界模型”融入代码领域,让模型通过观察-行动-观察的执行轨迹,增强代码的可验证性和自我修复能力。

如何实现从“看代码”到“看世界”的转变?

CWM作为一个32B参数、支持超长上下文(最高131k tokens)的LLM,采用了局部与全局交替机制和长序列稳定化技术。训练分为三个阶段:

● 预训练阶段:使用大规模通用语料和代码语料(约8T tokens,代码占比30%),为模型奠定基础,早期上下文长度为8k token。

● 中期训练阶段:引入5T tokens的世界建模数据,将上下文扩展到131k tokens,这是内化世界模型能力的关键步骤。

● 后训练阶段(SFT + RL):先进行SFT(100B tokens,32k上下文)以强化指令遵循和推理能力,然后进行大规模多任务多回合RL(172B tokens,131k上下文),训练目标覆盖可验证编码、算法题和软件工程交互。

Meta发布Code World Model:代码生成与推理的世界模型新突破 代码世界模型  Meta FAIR 代码执行模拟 AI代码修复 第3张

据Meta团队介绍,CWM的世界模型能力主要由中期训练阶段的两类数据驱动:

(1)Python执行轨迹(execution traces):将函数或测试在解释器中的中间栈帧和局部变量状态序列化为observation→action→observation格式,以专用数据喂给模型,让模型学会预测“下一步执行如何改变局部状态”。

Meta发布Code World Model:代码生成与推理的世界模型新突破 代码世界模型  Meta FAIR 代码执行模拟 AI代码修复 第4张

据了解,Meta提供给CWM的这类数据覆盖函数级、竞赛题解和仓库单元测试轨迹,数据量巨大。通过学习这些数据,模型能在无真实运行环境时模拟代码执行路径。

(2)Agent与环境的交互轨迹:使用自动化Agent在可执行仓库镜像中“觅食”——执行Bash命令、编辑文件、运行测试,以修复Bug或实现缺失功能。Meta收集了约300万条轨迹,来自10.2万张图片和3.15万个底层存储库。

Meta发布Code World Model:代码生成与推理的世界模型新突破 代码世界模型  Meta FAIR 代码执行模拟 AI代码修复 第5张

这些动态轨迹数据将Agent与环境的交互经验融入中期训练,帮助模型学会“用工具修复软件”的编码思路,尤其对多回合软件工程任务大有裨益。

此外,Meta分享了CWM在后训练阶段的工程细节:在SFT阶段引入“推理token”以区分直答与推理过程;在RL阶段改用灵活的标签鼓励模型形成自己的推理路径;同时采用自举策略,将早期RL模型生成的高质量轨迹回流到SFT,形成良性循环,提升Agentic能力并降低训练噪声。

CWM在基准测试中表现卓越

在Meta论文公布的基准测试中,CWM在代码修复和数学题上表现强劲:

● 在SWE-bench Verified上,CWM启用Test-Time-Scaling(多候选并投票)时达到65.8% pass@1,未启用时为53.9%;

● 在LiveCodeBench、Math-500、AIME等基准上也有亮眼结果:LiveCodeBench上取得68.6%;Math-500上达到96.6%;AIME 2024上达到76.0%。

Meta发布Code World Model:代码生成与推理的世界模型新突破 代码世界模型  Meta FAIR 代码执行模拟 AI代码修复 第6张

以上述SWE-bench Verified(要求AI模型修复GitHub项目中的实际错误)得分为例,CWM不仅领先于参数量相近的开源模型,还能与更大或闭源的LLM媲美,接近GPT-4水平。

不过Meta也坦言CWM并非完美,因为它不是通用聊天模型,在某些编辑格式或多语言场景仍有差距;且大量Agentic训练可能引入“格式化噪音”,需通过筛选和自举手段缓解。

业界的赞许与质疑并存

从社交平台的刷屏程度看,CWM的发布引起了广泛关注——这是Meta重组AI业务后推出的首款模型。

除了Alexandr Wang,多位Meta AI研究人员进行了宣传。例如,CWM资深核心贡献者Gabriel Synnaeve复盘了研究思路;Yann LeCun转发并总结:“代码世界模型(CWM):通过想象执行指令的效果和规划产生预期效果的指令来生成代码。”

Meta发布Code World Model:代码生成与推理的世界模型新突破 代码世界模型  Meta FAIR 代码执行模拟 AI代码修复 第7张

与此同时,业界对CWM的发布表示好奇与欢迎,尤其赞赏Meta开源了从中期训练到SFT与RL各阶段的检查点——这对学术和工程复现极具价值,在当前封闭策略盛行的大环境下难能可贵。

然而,热情之余也伴随现实质疑。不少开发者希望CWM能与现有代码生成系统进行独立对比,并在开发环境中实际测试。此外,CWM拥有32B参数,需强大算力,日常开发人员可能更期待轻量化变体。正如CTOL.digital工程团队所说:“CWM是一项伟大的研究成果,前景光明,但我们仍需实际验证。”

那么,CWM的发布意味着什么?如果AI能真正理解代码执行并成为常态,我们是否会进入软件开发新时代?

参考链接:

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://www.ctol.digital/news/meta-drops-ai-that-gets-how-code-works-shaking-silicon-valley/