当前位置:首页 > 科技资讯 > 正文

InfCode引领AI编程工程时代,清华姚班团队打造编码智能体新标杆

词元无限(InfCode)正以创新的多智能体架构,引领AI编程迈入「工程时代」,彻底改变企业级软件的开发与维护方式。

自人工智能领域知名研究者Andrej Karpathy创造「Vibe Coding」这一术语以来,这一概念迅速在开发者社区中走红,引发了广泛讨论。

开发者仅需用自然语言描述自己的「感觉」或意图,AI便能即时生成可执行代码,这种近乎魔法的编程方式令无数开发者惊叹不已,大幅提升了原型开发的效率。

InfCode引领AI编程工程时代,清华姚班团队打造编码智能体新标杆 AI编程 智能体 InfCode 工程时代 第1张

例如,输入提示词:“write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate”(编写一个Python代码,可视化单行道中交通信号灯的工作情况,车辆以随机速率驶入),AI便能在几秒内生成完整的动画模拟程序,涵盖红绿灯切换逻辑、车辆随机生成、停车判断规则,并配有流畅的可视化界面。

但惊喜过后,问题也随之而来。Vibe Coding虽然擅长快速原型开发和单脚本编写,但在面对企业级复杂工程时仍显得力不从心。受限于上下文窗口、推理深度以及Agentic模式缺失,它往往难以精准定位大型代码库中深埋的Bug,也极易在处理跨文件系统级修改时引发连锁错误,特别是在C++等类型语言常用的底层框架编程场景中。

现在,来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体InfCode,在SWE-Bench Verified和Multi-SWE-bench-CPP两项非常权威的AI Coding基准中双双登顶,力压一众编程智能体

InfCode引领AI编程工程时代,清华姚班团队打造编码智能体新标杆 AI编程 智能体 InfCode 工程时代 第2张

具体来说,InfCode展现的不仅是单点技术突破。在SWE-Bench Verified上,它以79.4%的Pass@1得分拿下SOTA,在MultiSWEbench的C++子集上,更是以25.58%的解决率大幅领先Claude 3.7 Sonnet的8.59%和DeepSeek V3的7.75%。

这些数字背后,是一套面向企业场景设计的多智能体体系。对于希望在企业场景引入AI Coding的决策者而言,这也许是AI从「单体提效」走向企业「组织进化」的新范式。

如果说Vibe Coding开启了AI编程的「感性时代」,那么InfCode正在定义AI编程的「工程时代」。

AI编程进入智能体时代

人工智能正在改变软件开发范式。

传统的大模型只能生成代码片段,而新一代编码智能体(Coding Agent)强调自主性、全流程覆盖和工程实用性。它们不仅会写代码,还能分解任务、调用工具、运行测试、反复调试,甚至提交补丁。这些智能体在多个基准上接受评测,其中最具权威的是由普林斯顿大学等提出的SWE‑Bench基准,以及OpenAI于2024年发布的升级版SWE‑Bench Verified。该基准来自真实GitHub项目,每个样本附带自然语言问题描述和完整的测试用例,要求智能体既要解决问题,又不能破坏其他功能。

SWE‑Bench Verified仅包含Python项目,无法反映多语言生态的挑战。2025年,字节跳动联合科研机构推出了 Multi‑SWE‑bench数据集,覆盖Java、TypeScript、JavaScript、Go、Rust、C与C++等七种语言,共计1632个经过人工验证的修复任务,由68名专家从2456个候选样本中精挑细选。

研究表明,C++项目通常需要一次修改200多行、涉及7个文件,这远难于JavaScript等高层语言;系统语言由于手动内存管理与复杂的编译体系使得LLM表现显著降低。对比官方报告,领先模型在C++上的解决率往往不足8%。

词元无限的突破:InfCode智能体

词元无限团队开发的InfCode智能体系统,在这一赛道上取得了突破性成绩:

在SWE‑Bench Verified上,InfCode以Pass@179.4%的得分刷新SOTA(世界最佳)——远高于公开排行榜上GPT‑5、Claude等顶尖模型70%左右的成绩。

在Multi‑SWE‑bench的C++子集(Multi‑SWE‑bench‑cpp)上达到25.58%的解决率,大幅领先于Claude 3.7 Sonnet的约8.59%、DeepSeek V3的7.75%以及Qwen2.5‑72B‑Instruct几乎为零的解决率。考虑到系统语言的巨大难度,这一成绩堪称惊艳。

InfCode引领AI编程工程时代,清华姚班团队打造编码智能体新标杆 AI编程 智能体 InfCode 工程时代 第3张

多语言基准显示,系统语言(C、C++、Rust)在内存管理、模板机制和复杂编译链方面的难度远高于Python、Java等高级语言。Multi‑SWE‑bench中,C++问题往往涉及跨文件、大规模修改,部分任务需要改动200多行代码。下表总结了Multi‑SWE‑bench各模型在C++上的解决率:

InfCode引领AI编程工程时代,清华姚班团队打造编码智能体新标杆 AI编程 智能体 InfCode 工程时代 第4张

在这样的背景下,InfCode在C++子集上取得25.58%的Pass@1解决率,体现了语义定位与语法分析相结合的优势。它不仅能准确定位问题,更能在复杂语法和大型项目中生成正确补丁,这对工业界具有重要价值。

这些成绩并不是偶然,而是来自一套精心设计的技术体系,词元团队将相关技术报告发表在arXiv平台上(https://arxiv.org/abs/2511.16004)。

根据该分析报告,InfCode包含三大核心亮点。

超越RAG:基于功能意图的复杂上下文定位

在真实的软件仓库中,真正困难的往往不是「写出补丁」,而是「先在海量代码中找到有问题的代码块」。SWE-Bench的任务通常不提供堆栈追踪(StackTrace),智能体只能依靠自然语言描述(如搜索功能变慢)去推测问题发生的位置。传统基于向量相似度的RAG(Retrieval-Augmented Generation)机制,往往只会检索到包含「search」关键词的注释或变量,这套机制在中小规模仓库上或许能够定位到问题位置,但在大型工程中容易停留在「字面相关」的片段附近——例如命中带有search字样的工具函数、配置或包装层,而不是实际承载查询逻辑的实现位置(如Manager::ExecuteQuery),本质原因在于它主要感知的是局部向量相似度,而没有显式理解「代码承载的具体功能语义」及其「在系统中的逻辑归属」这类功能意图。

为突破这一瓶颈,InfCode提出了「代码意图分析(Code Intent Analysis)」机制

该机制让智能体能够超越字面匹配,理解自然语言背后的「功能意图」,并将其智能映射到项目中的具体实现单元(函数或类)。这一过程融合了语义推理与架构理解,使模型能在无堆栈信息的条件下仍然精准地锁定问题上下文。

研究表明,在多语言基准(如Multi-SWE-bench)中,传统LLM往往无法正确识别文件或函数位置(尤其在C++、Rust等系统级语言中)。InfCode的语义意图映射结合AST层级分析,有效提升了跨语言、跨模块的定位成功率,让智能体在复杂工程中具备了「理解全局意图、直达根因代码」的能力。

增强工具:超越Grep的基于AST的结构化检索

找到问题的代码只是第一步,如何精准定位并修改它才是工程修复的关键。

传统的文本搜索工具(如grep)在C++等复杂语言中存在天然缺陷——同一标识符可能同时是类名、成员函数或变量,导致结果噪声极高。

字节跳动团队在Multi-SWE-bench的研究中指出,C++与Rust项目通常涉及跨文件、大规模修改,这使得「语义感知检索」成为智能体系统的必需能力。

InfCode自研了基于抽象语法树(AST)的结构化检索引擎

它通过Tree-Sitter构建完整的语法树,为智能体提供FindClass、FindFunction等语法层API。

例如:

FindClass (Search):只返回名为Search的类定义,自动忽略同名函数或变量;

FindFunctions (MyClass::search):仅匹配特定类的成员函数。

这种语法感知搜索(Syntax-Aware Search)的理念与开源工具ast-grep不谋而合——它被称为「语法层的grep/sed」,能通过AST模式快速定位与重写代码。

借助这种结构化检索,InfCode的智能体不再「盲搜」,而是真正「理解」代码的层次结构,在复杂工程中实现更高精度的bug定位与安全修复。

多智能体生成:基于对抗式的代码补丁与测试补丁双智能体生成

修复能力的核心不在于「一次命中」,而在于反复试错、持续进化

传统代码修复智能体多采用单智能体架构,无论是先生成测试补丁再生成修复代码,亦或是先生成修复代码再回测验证,这种单向的修复模式往往容易陷入「过拟合当前Issue」的信息茧房。

InfCode首创对抗式双智能体架构

代码补丁生成器(Code Patch Generator)负责修改代码以通过当前测试集;

测试补丁生成器(Test Patch Generator)则负责生成更强的测试用例,捕捉遗漏的边界场景。

二者在一个闭环中交替迭代:

当代码补丁通过测试后,测试补丁生成器会自动分析潜在漏洞并扩展测试覆盖度;随后代码补丁生成器必须进一步修复代码以应对新的挑战。

这种「越测越强、越修越稳」的对抗式工作流,让补丁在鲁棒性与完备性上持续演化,最终达到可直接集成于生产仓库的工程级质量。

这一设计契合了当前代码智能体研究的发展趋势:高水平智能体不仅要会生成,更要会验证与自我改进。

正如近期研究结果,单轮生成模式已难以支撑复杂工程任务,迭代-验证-优化的闭环结构将成为下一代Coding Agent的核心范式。

工程化细节:生成与筛选范式

InfCode的修复流程分为两阶段:生成(Generate)与筛选(Select)

InfCode引领AI编程工程时代,清华姚班团队打造编码智能体新标杆 AI编程 智能体 InfCode 工程时代 第5张

在生成阶段,系统并行启动多个独立容器,每个容器运行一条修复链路,允许模型查看代码库、运行测试、分析错误,并迭代生成候选补丁。最多经历五轮迭代,产生多样化的补丁组合。

筛选阶段,系统在真实构建和测试环境中重放每个补丁,除了验证测试通过与否,还考虑行为一致性、稳定性和副作用。最终选出的补丁不仅「跑通测试」,还具有更强的工程完整性与可维护性。这种广泛探索+精准筛选的策略使InfCode能产出质量更高的修复补丁,而非过拟合或脆弱的修改方案。

背后站着一支「创业天团」

技术突破的背后,是一支被业内称为「创业天团」的豪华阵容。词元无限的核心团队不仅拥有顶尖的技术实力,更难得的是将技术前瞻、产品化能力与商业化思维三者融为一体,这在当下竞争激烈的AI Coding Agent赛道中,构成难以复制的全链路优势。

团队领军人杨萍在字节跳动期间主导创立公司首个软件工程实验室。其研发的多智能体测试系统,广泛应用于字节多条核心产品线。由她从零开始孵化的内部AI Coding产品,也早已全面覆盖公司研发体系。在复杂真实场景中,「如何在超大规模组织中向AI要效能和结果」,是词元团队深刻的基因。此次创业,期望通过革命性的 Agentic平台,赋能企业以自然语言构建、优化和演化软件系统,降低技术门槛,加速数字化进程,让创新不再受技术资源限制。

CTO王伟来自清华姚班,在大模型与智能体领域深耕多年,具备扎实的算法与工程经验。加入词元无限之前,他曾作为国内知名具身机器人公司与大模型创业公司的技术合伙人,主导打造了多个落地效果突出的大模型与具身智能项目,此前亦带队在SWE-Bench曾斩获全球第二的成绩,再加上这次InfCode登顶,展现了其团队在算法创新上的世界级水准。

而商业化负责人李莹拥有十余年AI产业落地经验,作为AI领域连续创业者,她曾主导多段从0到1的业务孵化、规模化增长直至公司成功登陆资本市场的完整周期,更是在大模型To B领域主导完成了数亿元规模的项目落地,实现了多家央国企及世界500强客户的亿级项目签约与卓越交付。这种将技术价值转化为商业回报的能力,正是AI创业公司最稀缺的资源。

这个团队汇聚了来自字节、百度、微软等顶尖企业的精英,以及清华、北大、哥大、MIT等世界名校的人才,构成了独特的「顶尖老将+新生代骨干」组合。多个重要岗位由00后领衔,不仅为团队注入了对前沿技术的敏锐度和创新活力,也打造了扁平化、拥抱变化的AI原生企业文化,这对于需要在快速迭代的AI Agent赛道保持领先至关重要。

此外,团队对AI Coding赛道有着清晰的认知,该领域的竞争已从单纯的「工具效能」提升,转向对软件工程全生命周期的重构,即AI SWE。未来的赢家将是那些能提供端到端价值闭环的「数字员工」平台,而非简单的代码补全工具。团队正致力于实现「Coding+细分行业」的深度融合,通过赋能垂直领域的「Agentic ISV」,构建从工具到平台再到生态的商业闭环。