当前位置：首页 > 科技资讯 > 正文

Meta发布Code World Model：代码生成与推理的世界模型新突破

主机测评网
科技资讯
2026-01-03
579

今日凌晨，Meta的FAIR团队重磅推出了Code World Model（CWM），这是一个拥有320亿参数、支持长达131k token上下文的开放权重大型语言模型，标志着代码生成领域迈入新阶段。

根据Meta官方介绍，CWM的核心目标是将“世界模型”理念引入代码生成与推理，使模型不仅能编写代码，还能模拟代码执行过程、推理程序状态，并自我检测和修复Bug，从而提升代码的可执行性和可靠性。

Meta发布Code World Model：代码生成与推理的世界模型新突破代码世界模型 Meta FAIR 代码执行模拟 AI代码修复第1张

值得一提的是，为了推动“代码世界模型”方向的研究，Meta此次还开源了CWM在中期训练、SFT和RL阶段的权重检查点。Meta首席AI官Alexandr Wang在X平台上呼吁：“我们鼓励研究界对这个开放权重的模型进行深入探索！”

Meta发布Code World Model：代码生成与推理的世界模型新突破代码世界模型 Meta FAIR 代码执行模拟 AI代码修复第2张

为什么要把“世界模型”带入代码领域？

在CWM研究论文开篇，Meta团队指出，传统代码预训练将代码视为静态文本，模型主要学习逐行预测代码的语法和模式，但缺乏对执行过程的理解。

“我们认为这还不够——要真正掌握编码，不仅要了解代码的静态结构，更要理解代码执行时的动态行为和作用。”

这种能力对软件工程师至关重要：在局部层面，他们能把握代码行如何改变变量状态；在全局层面，他们可预测代码修改对程序输出的影响。因此，CWM的核心理念是将“世界模型”融入代码领域，让模型通过观察-行动-观察的执行轨迹，增强代码的可验证性和自我修复能力。

如何实现从“看代码”到“看世界”的转变？

CWM作为一个32B参数、支持超长上下文（最高131k tokens）的LLM，采用了局部与全局交替机制和长序列稳定化技术。训练分为三个阶段：

● 预训练阶段：使用大规模通用语料和代码语料（约8T tokens，代码占比30%），为模型奠定基础，早期上下文长度为8k token。

● 中期训练阶段：引入5T tokens的世界建模数据，将上下文扩展到131k tokens，这是内化世界模型能力的关键步骤。

● 后训练阶段（SFT + RL）：先进行SFT（100B tokens，32k上下文）以强化指令遵循和推理能力，然后进行大规模多任务多回合RL（172B tokens，131k上下文），训练目标覆盖可验证编码、算法题和软件工程交互。

Meta发布Code World Model：代码生成与推理的世界模型新突破代码世界模型 Meta FAIR 代码执行模拟 AI代码修复第3张

据Meta团队介绍，CWM的世界模型能力主要由中期训练阶段的两类数据驱动：

（1）Python执行轨迹（execution traces）：将函数或测试在解释器中的中间栈帧和局部变量状态序列化为observation→action→observation格式，以专用数据喂给模型，让模型学会预测“下一步执行如何改变局部状态”。

Meta发布Code World Model：代码生成与推理的世界模型新突破代码世界模型 Meta FAIR 代码执行模拟 AI代码修复第4张

据了解，Meta提供给CWM的这类数据覆盖函数级、竞赛题解和仓库单元测试轨迹，数据量巨大。通过学习这些数据，模型能在无真实运行环境时模拟代码执行路径。

（2）Agent与环境的交互轨迹：使用自动化Agent在可执行仓库镜像中“觅食”——执行Bash命令、编辑文件、运行测试，以修复Bug或实现缺失功能。Meta收集了约300万条轨迹，来自10.2万张图片和3.15万个底层存储库。

Meta发布Code World Model：代码生成与推理的世界模型新突破代码世界模型 Meta FAIR 代码执行模拟 AI代码修复第5张

这些动态轨迹数据将Agent与环境的交互经验融入中期训练，帮助模型学会“用工具修复软件”的编码思路，尤其对多回合软件工程任务大有裨益。

此外，Meta分享了CWM在后训练阶段的工程细节：在SFT阶段引入“推理token”以区分直答与推理过程；在RL阶段改用灵活的标签鼓励模型形成自己的推理路径；同时采用自举策略，将早期RL模型生成的高质量轨迹回流到SFT，形成良性循环，提升Agentic能力并降低训练噪声。

CWM在基准测试中表现卓越

在Meta论文公布的基准测试中，CWM在代码修复和数学题上表现强劲：

● 在SWE-bench Verified上，CWM启用Test-Time-Scaling（多候选并投票）时达到65.8% pass@1，未启用时为53.9%；

● 在LiveCodeBench、Math-500、AIME等基准上也有亮眼结果：LiveCodeBench上取得68.6%；Math-500上达到96.6%；AIME 2024上达到76.0%。

Meta发布Code World Model：代码生成与推理的世界模型新突破代码世界模型 Meta FAIR 代码执行模拟 AI代码修复第6张

以上述SWE-bench Verified（要求AI模型修复GitHub项目中的实际错误）得分为例，CWM不仅领先于参数量相近的开源模型，还能与更大或闭源的LLM媲美，接近GPT-4水平。

不过Meta也坦言CWM并非完美，因为它不是通用聊天模型，在某些编辑格式或多语言场景仍有差距；且大量Agentic训练可能引入“格式化噪音”，需通过筛选和自举手段缓解。

业界的赞许与质疑并存

从社交平台的刷屏程度看，CWM的发布引起了广泛关注——这是Meta重组AI业务后推出的首款模型。

除了Alexandr Wang，多位Meta AI研究人员进行了宣传。例如，CWM资深核心贡献者Gabriel Synnaeve复盘了研究思路；Yann LeCun转发并总结：“代码世界模型（CWM）：通过想象执行指令的效果和规划产生预期效果的指令来生成代码。”

Meta发布Code World Model：代码生成与推理的世界模型新突破代码世界模型 Meta FAIR 代码执行模拟 AI代码修复第7张

与此同时，业界对CWM的发布表示好奇与欢迎，尤其赞赏Meta开源了从中期训练到SFT与RL各阶段的检查点——这对学术和工程复现极具价值，在当前封闭策略盛行的大环境下难能可贵。

然而，热情之余也伴随现实质疑。不少开发者希望CWM能与现有代码生成系统进行独立对比，并在开发环境中实际测试。此外，CWM拥有32B参数，需强大算力，日常开发人员可能更期待轻量化变体。正如CTOL.digital工程团队所说：“CWM是一项伟大的研究成果，前景光明，但我们仍需实际验证。”

那么，CWM的发布意味着什么？如果AI能真正理解代码执行并成为常态，我们是否会进入软件开发新时代？

参考链接：

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://www.ctol.digital/news/meta-drops-ai-that-gets-how-code-works-shaking-silicon-valley/

免费服务器性价比服务器服务器教程

本文由主机测评网于2026-01-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260114548.html

Meta发布Code World Model：代码生成与推理的世界模型新突破

为什么要把“世界模型”带入代码领域？

如何实现从“看代码”到“看世界”的转变？

CWM在基准测试中表现卓越

业界的赞许与质疑并存

Ubuntu22.04安装MySQL5.7完整指南

WinBoat：在Linux上无缝运行Windows应用的开源神器（开发者必备工具指南）

Meta发布Code World Model：代码生成与推理的世界模型新突破

为什么要把“世界模型”带入代码领域？

如何实现从“看代码”到“看世界”的转变？

CWM在基准测试中表现卓越

业界的赞许与质疑并存

Ubuntu22.04安装MySQL5.7完整指南

WinBoat：在Linux上无缝运行Windows应用的开源神器（开发者必备工具指南）

相关文章