近期,以推出Devin智能体而闻名的领先人工智能公司Cognition,正式发布了其全新高速AI编码模型SWE-1.5。据悉,该模型专门为软件工程任务设计,旨在实现高性能与高速度的完美结合,目前已在Windsurf代码编辑器中向用户开放。今年7月,Cognition高调收购了开发工具Windsurf,为此次集成奠定基础。
同时,Cognition透露,得益于与推理服务提供商Cerebras的深度合作,SWE-1.5的运行速度表现出色,最高可达Anthropic旗下Sonnet 4.5模型的13倍,展现了显著的效率提升。
“开发者不应在‘思考速度快’与‘思考质量高’的人工智能之间被迫做出选择。”Cognition在官方声明中强调,这一核心理念是SWE-1.5的设计初衷。
据介绍,SWE-1.5是一款拥有数千亿参数的前沿规模模型,经过精心设计,以打破速度与性能之间的传统权衡。该模型最突出的特点在于其原始速度,这一优势源于与Cerebras的紧密合作:双方共同部署并优化SWE-1.5,包括训练一个优化的草稿模型以加速投机解码,以及构建定制化的请求优先级系统,从而确保端到端智能体交互过程更加流畅。
Cognition表示,此次合作使SWE-1.5实现了极低的延迟,并“树立了新的速度标准”。其处理速度最高可达950 token/秒,分别是Haiku 4.5模型的6倍、Sonnet 4.5模型的13倍。这一性能飞跃有助于开发者维持“心流状态”,将某些原本需要20秒的任务完成时间缩短至5秒以内。Cognition认为,5秒是关键阈值,能有效避免陷入“半异步死亡谷”的体验瓶颈。
当模型速度提升至最高950 token/秒时,此前可忽略的系统延迟成为主要瓶颈,这促使Cognition重新审视Windsurf智能体实现中的多个关键组件。为此,团队重写了代码检查(lint checking)和命令执行流水线等核心部分,每一步操作的开销最多降低了2秒。“未来,我们计划持续投入这类优化工作。”该公司补充道。
在Scale AI开发的SWE-Bench Pro基准测试中,Cognition的SWE-1.5模型取得了40.08%的得分,表现良好,仅次于Claude的Sonnet 4.5(该模型得分为43.60%)。此外,SWE-1.5致力于提供端到端的用户体验。据透露,该模型在高速运行状态下实现了接近当前最佳水平(near-SOTA)的编码性能。
Cognition表示,目前其内部工程师已将SWE-1.5作为日常工具,热门应用场景包括:深度探索与理解大型代码库;构建端到端的全栈应用程序;轻松编辑配置文件而无需记忆字段名称。据悉,处于测试阶段的Codemaps功能正由SWE-1.5提供支持。
支撑这款新模型的是对尖端基础设施的巨额投入。Cognition透露,SWE-1.5的训练依托于“由数千颗英伟达GB200 NVL72芯片组成的先进集群”,并声称它可能是“首个基于新一代GB200芯片训练的公开生产级模型”。GB200在去年推出时被誉为“性能怪兽”,与相同数量的英伟达H100 Tensor Core GPU相比,GB200 NVL72在LLM推理工作负载方面的性能最多可提升30倍、成本和能耗最多可降低25倍。
今年6月初,团队首批获取这批新硬件时,其固件尚未成熟,这迫使团队从零开始构建更稳健的健康检查系统与容错训练系统。对于专门针对现代软件工程中复杂、多步骤任务微调模型所用的密集型强化学习(RL)技术而言,这套强大硬件至关重要。
在训练方法上,该模型在Cognition定制的Cascade智能体框架上,通过端到端强化学习完成训练,并借助了由上千颗GB200 NVL72芯片组成的集群。
同时,Cognition认为,RL任务中的编码环境质量是影响下游模型性能的关键因素。为此,他们手动创建了一个数据集,力求还原在Devin与Windsurf中观察到的真实场景下任务与编程语言的广泛分布。基于开发Devin及构建Junior-Dev基准测试的经验,团队在打造专属评估体系上投入了大量资源。并且,他们与顶尖高级工程师、开源项目维护者及技术负责人合作,设计了高保真度的编码环境。
需要注意的是,SWE-1.5是其首次尝试借助这类环境提升模型编码能力,该环境中包含三种评分机制:用于可靠验证代码正确性的经典测试(如单元测试、集成测试)、用于评估代码质量与实现思路的评分标准(Rubrics)和借助可使用浏览器的智能体测试产品功能端到端完整性的智能体评分(Agentic grading)。为确保环境能抵御“奖励作弊”(reward hacking)行为,他们开发了一套名为“奖励强化”(reward hardening)的流程——由人类专家尝试寻找绕过评分器的方法。
这款新模型是SWE系列模型的迭代产品,而SWE项目最初由原Windsurf团队在2025年5月启动。之后OpenAI对Windsurf的收购计划失败,Cognition随即介入成为“接盘方”。如今,通过将SWE-1.5直接集成到Windsurf集成开发环境(IDE)中,Cognition正逐步实现一个新愿景。
SWE-1.5并非单一模型,其模型本身、推理过程与智能体框架经过协同设计,共同构成一个统一系统,以此同时实现高速与智能。“选择编码智能体,不只是选择模型本身。其周边的协同调度系统,对模型的实际表现也有着极大影响。在开发Devin时,我们常常希望能将模型与框架协同开发;而通过此次SWE-1.5的发布,我们终于实现了这一目标。“Cognition在公告中解释道。
因此,SWE-1.5的开发过程包含以下核心环节:
基于领先的开源基础模型,在定制的Cascade智能体框架之上,于真实任务环境中开展端到端强化学习(RL)训练。
在模型训练、框架优化、工具开发与提示词工程等方面持续迭代。
必要时从零重写核心工具与系统,以提升速度与准确性(当模型速度提升10倍后,很多环节都会变成瓶颈。)。其计划在这一领域持续推进,相关改进也将助力Windsurf中其他所有模型的性能提升。
高度依赖内部真实场景的“内部测试使用”(dogfooding)来指导调优决策,这种方式能让其围绕用户体验对智能体与模型进行调优,而通用奖励函数无法实现这一点。
部署该模型的多个测试版本(以“Falcon Alpha”为名称),并对性能指标进行监控。
这一战略让SWE系列模型得以快速迭代,而Cognition此举似乎也在押注:即便没有推出市场上参数规模绝对最大的模型,这种高度集成的高速体验或也能培养出一批忠实用户。
SWE-1.5发布之际,AI编码环境工具Cursor也推出了其专属高速模型Composer。两家公司都正通过打造专有模型,构建高度集成、低延迟的开发者体验,并减少对第三方接口(API)的依赖。同时,这两项发布表明人工智能开发者工具市场出现了明确的战略趋同。
两家公司都在大规模采用强化学习技术。Cognition利用一款名为otterlink的虚拟机管理程序,在数万个并发的高保真环境中运行强化学习推演,这些环境包含代码执行与网页浏览功能。这种方法与Cursor所描述的、为自身强化学习训练“运行数十万个并发沙盒编码环境”的方式高度相似。
而该技术路径也凸显出一个共识:要打造真正高效的编码智能体,企业须结合自有定制工具与真实场景对模型进行微调。Cursor的一位机器学习研究员这样解读该策略:“如今,要实现高效工作,至少需要具备一定水平的智能;若能将这种智能与速度结合,效果会非常出色。”
两者的另一相似之处在于透明度的缺失。Cognition与Cursor均对其新模型的基础架构守口如瓶,仅提及模型基于“领先的开源基础模型”构建。这种保密性使得独立评估难以开展,只能依赖用户对企业内部基准测试的信任。这也引发网友一系列的猜测,有人怀疑SWE-1.5“使用的开源模型可能是GLM-4.5,Composer 也是一样的情况”。
值得一提的是,据公开介绍,Composer的生成速度达到每秒250个token,而SWE-1.5的处理速度最高可达950 token/秒,是前者接近4倍。
目前,已有一批开发者试用了两款模型。AI专家兼博主Simon Willison在测试SWE-1.5后表示:“这款模型确实感觉非常快。与Cerebras合作进行推理,是一步非常明智的举措。”然而,也有用户在使用两款模型后称,“SWE-1.5虽然速度快,但没能解决一个问题;而Cursor 2.0的Composer-1模型却一次性解决了该问题(在5-codex连接失败的情况下)。”
此外,还有用户反馈,“(SWE-1.5)它在处理小型任务时表现确实不错。但比如在尝试完成某项任务时不仅失败了,还搞砸了所有东西(出现了无效的差异编辑),而GPT-5(低推理版本)一次就成功完成了。”
参考链接:
https://cognition.ai/blog/swe-1-5
https://winbuzzer.com/2025/10/30/cognition-releases-windsurf-high-speed-swe-1-5-ai-coding-model-outpacing-gpt-5-high-xcxwbn/
本文由主机测评网于2026-01-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118433.html