当前位置:首页 > 科技资讯 > 正文

九坤投资IQuest-Coder-V1开源编程Agent深度解析

九坤投资旗下至知创新研究院近日推出开源编程Agent模型IQuest-Coder-V1。尽管至知研究院在AI圈内知名度不高,但其模型的基准测试成绩已直接比肩行业顶级水平。

该模型母公司为量化私募,发布时间恰逢1月,这两点特征叠加,不禁让人联想到去年同一时期亮相的DeepSeek R1。

事实上,去年DeepSeek R1面世时也是类似情形:一家名不见经传的公司,却拿出了行业顶尖的模型。

那么,IQuest-Coder-V1能否成为下一个“DeepSeek时刻”呢?

目前还难以断言。

JetBrains发布的《2025开发者生态系统现状报告》显示,全球已有85%的开发者采用AI工具,41%的代码由AI生成,然而这些工具大多仍停留在辅助层面。

从OpenAI到Anthropic,各大厂商在2025年底密集推出的Agent产品,均将代码作为切入点。

因此可以确定,编程Agent将是下一个风口。

01

IQuest-Coder-V1并非简单的代码补全工具,而是一款能自主完成软件工程全流程的代码大语言模型。

以往的AI编程助手主要提供自动补全功能,你写一半代码,它帮你续写。而IQuest-Coder-V1能从零开始理解需求、设计架构、编写代码、测试调试,甚至进行多轮迭代优化。

IQuest-Coder-V1有三个关键技术特点。

第一是40B的参数规模。与GPT-5、Gemini 3等动辄数千亿参数的模型相比,40B仅为它们的几十分之一。

这意味着,IQuest-Coder-V1可在性能较好的消费级硬件上运行,无需依赖专业的数据中心级算力。

第二个特点是Loop架构。

这一名称直截了当,模型会对自己的输出进行循环迭代。如同程序员写完代码后会回头检查、修改、重构,Loop架构让模型在生成代码后能够反思并改进。

不过,Loop架构并非简单的多次调用,而是将迭代优化过程内嵌至模型架构中。简言之,IQuest-Coder-V1会超额完成任务,以保证最终输出覆盖用户需求。

Loop版本让模型“遍历两遍”相同的神经网络,如同阅读文章时回头重读关键段落,第二遍常能发现第一遍忽略的问题。

第三个特点是code-flow训练范式。

传统代码模型学习的是代码片段,即静态的语法和API调用模式。通俗讲,AI能完美复刻所学代码,却不懂为何这样编写。

而IQuest-Coder-V1学习的是软件如何逐步演化,即动态的逻辑演进。这使得模型不仅理解“这段代码是什么”,还明白“这段代码为何这样写”、“下一步该如何修改”。

IQuest-Coder-V1采用32k高质量轨迹数据进行强化学习训练,这些轨迹通过multi-agent角色扮演自动生成。

系统模拟用户、Agent、Server三方交互:用户提出需求,Agent编写代码,Server返回执行结果,全程无需人工标注。训练目标不是单次代码生成,而是完整的软件演化过程。

这些技术设计在基准测试中得到验证。在评估真实软件工程能力的SWE-Bench Verified测试中,IQuest-Coder-V1取得81.4%的准确率,超越Claude Sonnet 4.5的77.2%。在LiveCodeBench v6上为81.1%,在BigCodeBench上为49.9%。

九坤投资IQuest-Coder-V1开源编程Agent深度解析 IQuest-Coder-V1 编程Agent 九坤投资 开源大模型 第1张

IQuest-Coder-V1出自九坤投资创始团队发起设立的至知创新研究院。该研究院独立于九坤量化投研体系,职能是探索多个AI应用方向。

九坤投资本身就是中国最早一批量化私募,成立于2012年,当前管理规模超600亿人民币,与明汯、幻方、灵均并称量化“四大天王”。

创始人王琛拥有清华大学数学物理学士及计算机博士学位,师从图灵奖唯一华人得主姚期智院士。联合创始人姚齐聪为北京大学数学学士、金融数学硕士。

二人均曾任职于华尔街顶级对冲基金千禧年(Millennium),2010年抓住中国股指期货上市机遇,回国创业。

九坤自2020年起建设“北溟”超算集群,内部设有AI Lab、Data Lab和水滴实验室。

这些基础设施原为量化投资业务服务,现也为大模型研发提供算力支持。

量化机构拥有大规模算力集群及数据处理能力,这与大模型训练的资源需求相匹配。同时,在人才结构上,量化投资与AI研究均需数学、计算机背景的研究人员,这使得量化机构进入大模型领域具备一定基础。

从量化投资到开源大模型,这一路径并不突兀。

量化机构本身拥有大规模算力集群和海量数据处理能力,与大模型训练需求高度契合。更重要的是,量化投资与AI研究在人才结构上有很大重叠,均需数学、计算机、物理背景的研究型人才。

因此从发展角度看,IQuest-Coder-V1更像是九坤在AI领域的自然延伸,而非简单跟风。

02

但不可否认,IQuest与DeepSeek有着惊人的相似性。

二者均出自中国量化基金,都展示了在资源受限条件下通过工程创新实现技术突破的能力。但细察之下,两者选择了完全相反的方向。

DeepSeek追求“广度”。从DeepSeek-V3到R1,梁文锋团队的目标是构建通用对话能力,立志成为中国的GPT。

它需回答各领域问题,要能写诗、讲故事、分析时事、解决数学题。这是一条横向扩张路径,覆盖尽可能多的应用场景。

IQuest-Coder-V1则追求“精度”。它专注于代码这一垂直领域,在SWE-Bench等专业测试上做到极致。它不关心能否写诗,只关心能否像真正程序员一样理解需求、设计系统、解决bug。

有趣的是,就在IQuest-Coder-V1发布当天,DeepSeek团队也有新动作。

包括创始人梁文锋在内的19位研究者发布了关于mHC(流形约束超连接)架构的论文,旨在解决超连接网络在大规模训练中的不稳定性问题。

尽管DeepSeek团队在研究工作上保持一定更新频率,但在产品方面却略显滞后,至今仍未推出R2和V4。

九坤投资IQuest-Coder-V1开源编程Agent深度解析 IQuest-Coder-V1 编程Agent 九坤投资 开源大模型 第2张

2025年,AI领域竞争焦点是对话能力与推理能力,各家比拼谁能更好回答问题、谁的推理过程更清晰。进入2026年,焦点已转向Agent能力,比拼AI能否自主完成复杂多步骤任务。

Agent能力的核心在于“执行”,而不仅仅是“理解”和“回答”。

以代码为例,对话型AI可告知如何修复代码中的bug,而Agent能直接帮你修改代码、运行测试、提交修改。这是完全不同的能力层级。

DeepSeek团队在研究层面确实活跃,不断发表论文推进底层技术。但落实到产品,DeepSeek仍主要是对话型AI:用户提问,它给出答案,这是其主要使用场景。

DeepSeek目前尚未推出真正的Agent产品,不具备像IQuest-Coder那样自主完成整个软件开发流程的能力。

诚然,DeepSeek在Alpha Arena等AI炒币/炒股比赛中表现亮眼,证明了量化基金训练出的模型“真正懂市场”,能读懂K线、解析新闻、做出交易决策。

量化投资的本质是用算法理解市场规律,寻找价格波动中的模式。这进一步说明DeepSeek具备“理解复杂系统”的能力。

但需指出,即便在金融市场表现出色,这种能力仍停留在“理解”和“分析”层面。DeepSeek可分析市场、给出建议,但作为产品尚未发展出完整的自主交易能力。

从炒股到写代码,幻方与九坤的AI都展现出同一种倾向:更强的执行导向。这或许能解释量化基金为何能在AI领域取得成果,因为他们的基因是“让算法自主决策”,而非“让算法回答问题”。

当下AI竞争已不仅是比谁的论文更多,更重要的是落地,是谁能把技术转化为用户可直接使用的工具。

市场已等待许久,梁文锋该推出新产品了。

03

IQuest-Coder-V1对标的是Claude Opus 4.5。这一定位十分明确,81.4%对80.9%的基准测试数据也确实亮眼。

加之Anthropic对华态度强硬,也使人们对IQuest-Coder-V1寄予更多期望。但“取代Claude Opus 4.5”这一问题需更冷静分析。

Claude Opus 4.5的优势不仅在于模型能力,更在于完整的产品生态。它拥有原生的VS Code扩展、面向终端的交互式开发工具Claude Code、支持MCP协议的工具生态、企业级安全合规标准,以及无数真实项目打磨出的用户体验。这些都不是一个刚发布的模型能在短期内复制的。

更重要的是用户习惯。Claude发布较早,程序员群体已习惯其“工作方式”,知晓何时信任它、何时介入、如何高效协作。

九坤投资IQuest-Coder-V1开源编程Agent深度解析 IQuest-Coder-V1 编程Agent 九坤投资 开源大模型 第3张

这种使用习惯的养成需时间,需在无数次试错中建立。一个新模型即便基准测试数据更好,也需相当长时间来培养用户信任。

基准测试与实际应用之间确实存在差距。

虽说SWE-Bench Verified测试的是在真实代码仓库中解决issue的能力,这比简单代码补全复杂得多。然而即便在此类测试中表现出色,也不等于日常开发中就能无缝替代人类程序员。

实际工作中的需求往往模糊,产品经理与开发者的沟通过程中,需求常会多次变更,而这些是基准测试中没有的。

不过,IQuest-Coder-V1的机遇在于其他维度。它是开源的,意味着企业可自行部署,可按需调整优化,无需担忧数据被第三方服务商获取。对于金融、医疗、国防等对数据安全有严格要求的行业,这是实实在在的价值。

这种开源代码大模型的体验,完全不同于Claude用户。Claude用户更多是习惯云服务、愿为便利性付费、对数据隐私无极端要求的开发者。IQuest-Coder-V1的潜在用户则是需要数据自主可控的企业、想要深度定制的技术团队、或喜欢折腾开源工具的开发者。

例如像九坤和幻方这样从事量化的企业,其算法就是企业命脉,绝不可能上传至公有云。

当然,开源也有开源的问题:没有专门的产品团队打磨用户体验,没有客服解决使用中的问题,遇到bug只能自己想办法或等社区修复。这些都是开源模型相较商业产品的劣势。

有一种观点认为,像IQuest-Coder-V1这样带有一定Agent功能的代码大模型,可能是通向通用Agent乃至AGI的第一步。

这一观点的逻辑在于,代码是结构化、逻辑清晰的任务,相比其他开放性任务更易验证对错。测试通过与否,这种二元反馈为Agent提供了明确的学习信号。

更重要的是,编程任务本身所需的能力正是通用Agent所需的核心能力。

从SWE-Bench等基准测试来看,它测试的不仅是代码生成,而是理解需求、规划步骤、调试错误、迭代改进等能力。这一过程与解决其他复杂任务的模式相通。

代码环境提供了一个相对可控的训练场,一旦在此证明了其Agent能力,扩展到其他领域的技术路径就会更清晰。

因此,九坤或许也在下一盘大棋。