当前位置:首页 > 科技资讯 > 正文

Feeling AI CodeBrain-1强势登榜,中国AI工程能力跃居世界前列

【导读】Feeling AI凭借CodeBrain-1在权威榜单Terminal-Bench 2.0中强势突围,紧追OpenAI最新旗舰,荣获全球第二。这一成就不仅打破了美系巨头的垄断,更彰显了中国AI在复杂任务规划与自主编码领域的顶尖工程能力。

在全球科技界,尤其是中国农历春节的前夜,竞争氛围愈发紧张。Anthropic祭出了Claude Opus 4.6,而OpenAI则以GPT-5.3-Codex强势回应。

表面上是一场「王座之争」,但实则竞争的底层逻辑已悄然改写。全球大模型竞赛已从实验室的「参数博弈」演变为实战的「进化竞争」。

这一次,巨头们不再沉迷于虚幻的跑分数据,而是将焦点锁定在架构的严谨性和自主工作流的长效续航上。能否在真实商业世界中「破局」,成为唯一的衡量标准。

在硬核指标的正面交锋中,OpenAI和Anthropic均选择Terminal-Bench 2.0作为实力背书。Opus 4.6在Agentic Terminal Coding Task上以65.4%的胜率展现了卓越的智能体编码能力;而Sam Altman凭借5.3-Codex+ Simple Codex的组合创下的77.3%(75.1%)高分,自诩为编码性能之巅。

NVIDIA首席科学家Jim Fan曾言:真实的终端环境是AI的「魔鬼训练场」。在闭环环境中自我进化,已成为衡量模型工程能力的终极标尺。

令人振奋的是,在这一权威赛道上,中国的AI初创团队Feeling AI异军突起。其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下,以72.9%(70.3%)的惊艳战绩跃升全球榜单第二,成为前十强中唯一的中国新锐。

Feeling AI CodeBrain-1强势登榜,中国AI工程能力跃居世界前列  CodeBrain-1 Agentic Terminal-Bench 2.0 第1张

刚拿下Agentic Memory SOTA,Feeling AI再获佳绩

5天前,Feeling AI团队发布MemBrain1.0,在多项主流记忆基准评测中拿下全新SOTA,反超MemOS、Zep和EverMemOS等记忆系统和全上下文模型。在KnowMeBench Level III两个难度等级最高的评测中更是比现有评测结果大幅提升超300%。

在AI技术圈和资本押注的新风口——Agentic Memory方向,Feeling AI率先打出第一张牌。

强大的记忆能力以及适配模型原生的层级化记忆系统,意味着Agentic AI正从模型能力逐步走向用户体验层面的范式跃迁。

紧随MemBrain 1.0的发布,Feeling AI又推出了第二张王牌——CodeBrain。作为具备动态规划与策略调整能力的「进化大脑」,CodeBrain-1迅速跻身权威基准Terminal-Bench2.0榜单全球第二,仅次于OpenAI 5.3-Codex的官配Simple Codex。

Feeling AI一直强调动态交互是世界模型通向AGI的终极拼图。其原创的跨模态分层架构提出了三层核心能力——负责理解、记忆与规划的InteractBrain,负责能力执行的InteractSkill,以及负责渲染呈现的InteractRender,共同构成了其技术护城河。

目前已推出的MemBrain与CodeBrain都属于InteractBrain核心层,精准定位在复杂动态交互场景下的深度理解与长程规划。这两项在全球拿下极具说服力的成绩并非偶然,而是早有布局。

这也进一步解释了无论是用于Agentic Memory的MemBrain1.0还是用于确保模型任务规划和执行成功率的CodeBrain-1,其算法核心关注点都集中在服务于复杂「动态交互」场景的能力。

OpenAI在其官网技术博客中明确将Simple Codex定义为「针对长程软件工程任务的最优解」。模型和Agent框架的良好组合也许将成为未来大模型商业落地的标准形态。

一个能驾驭全球顶尖模型的中国框架,正是AI时代最核心的智能中枢。

CodeBrain-1:动态调整计划与策略的「大脑」

Terminal-Bench官方评测网站最新排名显示,CodeBrain-1仅次于Open AI的Simple Codex(GPT-5.3-Codex),Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。榜单上还有其他知名的Agent或机构,如Warp、Coder、Google、Princeton等。

Feeling AI CodeBrain-1强势登榜,中国AI工程能力跃居世界前列  CodeBrain-1 Agentic Terminal-Bench 2.0 第2张(官网截图)

Terminal Bench覆盖的任务类型非常广泛,包括复杂的系统操作和需要在真实终端环境中完成的编码任务。CodeBrain-1的核心关注点在于「代码能否被正确写出并运行」。

  • Useful Context Searching:只使用「真正有用」的上下文。在复杂任务中,信息不是越多越好,而是是否相关。减少噪音可以有效避免LLM的幻觉问题。CodeBrain-1会根据当前任务需求和已有Code Base索引,充分利用LSP (Language Server Protocol)的功能,提高关联信息的检索效率,有效辅助Code Generation的过程。
  • Validation Feedback:让失败真正变成信息。CodeBrain-1可以从LSP Diagnostics当中高效定位错误并补充相关代码和文档,有效缩减Generate->Validate的循环过程。
  • 团队从Terminal Bench中筛选出一个更聚焦的子集,共47条任务,均可以使用单一程序语言(Python)完成。在这一子集中,CodeBrain-1表现出了稳定而一致的完成能力:关联代码和文档检索更高效;在代码检查和验证失败时,能更快定位问题。

Feeling AI CodeBrain-1强势登榜,中国AI工程能力跃居世界前列  CodeBrain-1 Agentic Terminal-Bench 2.0 第3张此外,在Token消耗方面,CodeBrain-1也展现出了不俗的表现,可持续降低用户成本。

CodeBrain-1在Terminal-Bench 2.0上的强势表现还不仅体现在真实命令行终端(CLI)环境下的端到端任务执行能力。

更重要的是,团队赋予了它更高阶的能力——会动态调整计划与策略的「大脑」。它通过优化任务的执行逻辑和错误反馈机制,显著提升了模型在真实终端环境下的操作成功率。

为什么AI巨头都在Terminal-Bench 2.0上较量?

Terminal-Bench是由斯坦福大学与Laude Institute联合打造的开源基准,被公认为AI智能体在真实命令行(CLI)环境下端到端执行能力的「金标准」。

  • 闭环实战环境:在隔离的Docker容器中,AI必须像人类专家一样在真实的Linux生态中完成编译、调试、训练及部署。
  • 高压长程任务:89个深度场景横跨软件工程与科学计算,要求极高的逻辑跨度且彻底杜绝了简单的「模式匹配」。
  • 零容忍验证:采用0/1判定准则,唯有产出符合预期的交付物才算通关。
  • 2.0的「天花板」效应:升级后的2.0版本大幅拉高了门槛。目前全球顶尖模型的解决率普遍难以突破65%,这已成为大模型处理系统级复杂任务的「深水区」。

CodeBrain-1首次亮相便一举夺得全球第二,其含金量不言而喻。