当Skills范式还在被热议时,一种颠覆性的Agent新范式已然破局。它完全摆脱了对预设Skills的依赖,也无需开发者去GitHub翻找代码或工具。面对复杂需求,这种Agent能够一边执行任务,一边为自己研发“新装备”。
这种智能体不需要人类全天候伺候,更不需要人为地为其配置API或搬运现成工具。在实际工作中,每当遇到能力边界之外的挑战,它能直接通过“进化”来弥补短板。
该智能体以Gemini 3 Pro为核心后端,在被誉为“人类最后考试”的极难评测集HLE上表现惊人,其表现仅次于尚未全面公开的GPT5.2-Pro级别智能体。
在多项高难度基准测试中,它的表现比那些未披露具体工具使用方法的官方结果足足高出了近20分,且所有结果均是一次性(One take)跑通,无需反复调试。
这是来自云玦科技团队的最新研究成果。
这项技术的受关注源于近期流传的一段演示视频。起初,它看起来只是一个普通的任务处理场景:用户输入了一段复杂的分析指令。
请调研2023届毕业生中,哪些州的ACT考试参与率不低于50%且综合平均分达到20分?此外,请列出这些州学生达到科学基准的具体比例。
Agent随即进入分析与规划阶段,尝试从现有的库中调取工具。到这一步,其逻辑似乎与传统Agent无异。
然而,任务的开放性导致了预设工具链的断裂。常规Agent此时通常会卡死或报错,但令人惊讶的一幕发生了:
它竟然开始现场编写并调试代码,为自己“手造”了一个新工具!甚至在初次运行出错后,还能自我修复代码逻辑。
这种进化速度令人咋舌。在只有一次尝试机会的5个评测集中,该Agent白手起家,从零开始竟陆续“捏”出了128个实用工具。尤其在面对HLE两千多道题目时,它一边通关一边合成了97件“专属装备”。
随后,它带着这些积累的工具转战DeepSearchQA、FinSearch Comp等更多试炼场。当处理到约4000道题时,工具数量稳定在128个,不再盲目扩张。这意味着Agent已经意识到现有的工具库足以覆盖绝大多数新任务,展现出了极强的可复用性和逻辑收敛性。
△ 工具数量随处理任务量增长的统计曲线
数据对比显示,在知识迁移策略(WS)下,随着旧工具的积累,新工具的产出率大幅下降,后期甚至趋近于零。这证明了它构建的是一套通用的方法论,而非针对特定任务的死记硬背。
在其高频使用的前50个工具中,网页搜索、学术调研、PDF解析等通用基础工具占据核心地位。这种行为模式与人类的工作习惯高度一致:通过沉淀基础能力来解决复杂的长尾问题。
实验结果表明,该自主进化的Agent在多项基准测试中均处于领跑地位,尤其在需要深度检索和逻辑推理的场景下,性能远超常规配置的Agent。
实现这一切的底层逻辑被称为原位自进化(In-situ Self-evolving Agent)。与传统的在训练阶段通过外部监督信号进行的自进化不同,原位自进化发生在推理阶段。
这意味着它不需要海量的真值标注,而是依靠模型在交互中的内部反馈和经验积累,实时“蒸馏”出通用技能。换言之,它是真正的“边干边学”。
阿里CEO吴泳铭曾预言,ASI(人工超智能)的关键节点在于AI的自进化。而云玦科技选择了一条更为务实的路径:工具优先。
该框架认为,工具是Agent能力边界的最直接体现,且工具执行的代码反馈(Binary Feedback)提供了最客观的监督信号。这支Agent军团由四个协同角色组成:
为了提升进化效率,团队还引入了并行批处理(Parallel batch)技术,让Agent在处理一批相似任务后,一次性获取海量的经验包。此外,“测试时收敛”指标的引入,使得Agent的进化过程变得可量化、可监测。
这支极具创新力的团队来自云玦科技,由前阿里巴巴集团副总裁彭超创办。论文通讯作者为联合创始人兼CTO齐炜祯,他曾是ProphetNet(多词元预测架构)的第一作者,该技术至今仍被DeepSeek、Qwen等主流模型沿用。
齐炜祯作为微软亚洲研究院出身的联培博士,在Agent范式和推理优化(如KV Cache)领域有深厚积累。令人敬佩的是,这项足以媲美SOTA的实验,是在仅15万元的研究经费下完成的。这意味着团队必须精准押注“工具优先”的逻辑,不容许任何冗余的试错成本。
在To C场景中,AI一直面临开放性、可控性与经济性的权衡难题。原位自进化架构通过将成熟路径“固化”为静态模板,既降低了推理成本,又通过代码反馈确保了安全性。
目前,云玦科技已将这套架构及所有实验数据完全开源。对于开源模型阵营而言,这无异于一种强效的动态优势赋能:让智能体在真实场景中“越用越聪明”,从而在与闭源巨头的竞争中实现弯道超车。
从Skills到Zero Skill的跨越,或许正是AI迈向通用智能的下一个关键里程碑。
论文链接:https://github.com/YunjueTech/Yunjue-Agent/blob/main/tech_report/YunjueAgentTechReport.pdf
GitHub链接:https://github.com/YunjueTech/Yunjue-Agent/
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433745.html