当前位置:首页 > 科技资讯 > 正文

重塑AI Agent:从工具到数字员工

Open Claw的兴起,让AI Agent首次迈入真实的工程环境。

这次,Agent不再局限于Demo、插件或对话工具,而是逐步渗透企业内部,承担起持续、复杂且可验证的工作任务。然而,一个现实问题也悄然浮现:当Agent融入长期运行的工作流,它所面临的挑战远超过提示词或工具调用,还包括部署成本、交互效率,以及底层模型是否适合“常驻运行”。

这迫使行业直面一个更为根本、却迟早需要解答的问题——

若Agent的目标是成为可靠的数字员工,它是否应继续基于上一代模型与交互假设?

在这一阶段,行业实际上已经形成了一种隐含共识:Agent的问题,应当通过更快的产品迭代来解决。

更复杂的Prompt、更精细的流程编排和更丰富的工具调用,成为多数团队默认的前进方向。

但在FlashLabs看来,这种路径忽略了更根本的问题:如果底层模型本身不适合长期运行与实时协作,再精巧的产品设计也只是放大系统的结构性上限。

多数团队选择在既有模型能力上加速产品化,尽快实现应用与商业闭环;而少数勇者则选择了一条更慢、风险更高的道路——回归前沿研究与模型层,重新审视Agent的基础假设。

FlashLabs,正是这些勇者之一。

01

视Agent为“数字员工”,而非工具

在FlashLabs看来,AI Agent不应只是被动执行指令的工具,而应更接近于一个被赋予目标、能够自主拆解并持续推进工作的“数字员工”。

这一判断并非基于短期技术趋势,而是源于创始人石一对真实组织运作方式的长期观察。在近期采访中,他反复强调一个观点:当前中小企业面临的核心挑战已不再是单点降本,而是在组织规模受限的前提下,如何持续放大关键岗位的产出能力。

在此背景下,如果AI仅完成人类拆解好的任务步骤,其能力上限显而易见;而如果Agent能理解OKR与KPI,并围绕目标主动拆解、执行与迭代,它才有可能真正成为组织能力的一部分。

“目前市面上的许多Agent本质上仍是被动式的。”石一在交流中指出,“它们完成的是用户已明确、拆解好的任务。但若将Agent视为员工,它就不应只响应指令,而应围绕目标主动推进事情。”

在他看来,对Agent能力的过度保守,本质上是对技术潜力的低估。如果技术已具备接近“数字员工”的可能性,延迟实现只会让效率损失长期固化。

重塑AI Agent:从工具到数字员工 AI Agent 数字员工 长期运行 前沿研究 第1张

02

SuperAgent:为长期运行设计的Agent

这一判断直接影响了FlashLabs核心产品SuperAgent的设计方向。

从功能定位看,SuperAgent旨在持续完成复杂任务的企业级AI Agent,适用于销售、市场与运营等真实岗位场景。与多数Agent不同,SuperAgent被假定为一个可长期运行的系统,而非一次性任务执行器。

在机制层面,SuperAgent不再将用户输入视为单次指令,而是首先进行意图理解,判断为可能包含多个阶段的复合目标。随后,系统自动进入任务规划流程,对整体目标进行多步骤拆解,并在执行过程中持续维护上下文状态,从而避免早期Agent产品常见的“任务半途而废”。

主动性是SuperAgent的另一核心特征。当目标存在歧义或关键条件不明确时,它会像真实同事一样向用户发起确认,而非基于假设推进;任务完成后,它也会主动提出下一步建议,而非简单结束对话。

整个任务拆解、规划、搜索与执行过程对用户保持可见。这种设计让SuperAgent从“指令执行器”升级为更接近组织协作者的角色。

在部署方式上,SuperAgent选择云端化、开箱即用的路径。这在一定程度上也是对行业现实的直接回应:当Agent的使用与部署成本过高时,其价值往往难以在真实业务场景中持续验证。

在实际使用中,SuperAgent已在多个岗位场景中完成能力验证:

在销售与增长场景中,它可承担线索发现、数据补全、管道分析与自主跟进;在内容与展示场景中,覆盖从研究、结构规划到PPT生成的完整流程;在GTM与运营层面,则支持数据清洗、客户画像构建、市场划分与趋势分析等。

03

若Agent要上岗,语音不能停留在上一代架构

在FlashLabs对SuperAgent的整体设计中,语音被视为不可或缺的交互形态。

石一认为,若Agent要嵌入真实工作流,就不能仅停留在文本层面,尤其在客服、销售、支持等以实时沟通为核心的岗位中,语音是天然的工作接口。

但在语音方向上,行业主流仍选择“快路径”:通过ASR语音识别、LLM文本大模型与TTS语音合成的级联式架构,优先推动产品落地。这种方案在工程成熟度与上线效率上优势明显,也是当前大多数语音AI产品的实现方式。

FlashLabs却做出了反共识的选择:

他们未围绕现有模型进行封装,而是回归模型层本身,尝试重新定义语音交互的基础架构。

团队认为级联式架构的问题并非“尚未优化到位”,而是其设计假设不适合实时、长期的人机协作场景。当语音在系统入口被强制还原为文本时,情感、语气、停顿等副语言信息不可避免丢失;而多模型串联运行也带来难以压缩的累积延迟。

04

Chroma:为Agent时代设计的端到端语音模型

基于这一判断,FlashLabs团队花费约一年时间自研端到端语音模型Chroma。

Chroma能在同一模型体系内完成语音理解、语义推理与语音生成,避免传统级联式方案中因中间文本转换导致的信息损失与多段延迟。其采用的交错调度策略使模型能在实时流式对话中同时处理语音与文本标记,实现亚秒级端到端响应。

在实际测试中这种设计带来几个显著优势:

首先模型能感知并表达语音中的副语言信息如情绪、语调与停顿;其次只需几秒钟参考音频即可实现高保真个性化语音克隆并在多轮对话中保持一致;更重要的是在真实对话场景中Chroma的端到端延迟显著低于传统级联系统使语音交互更接近自然交流节奏。

重塑AI Agent:从工具到数字员工 AI Agent 数字员工 长期运行 前沿研究 第2张

05

开源是Frontier Research的工作方式

对FlashLabs来说做到这一层并不意味着研究阶段的结束反而意味着一个更明确的判断:

若将Agent视为前沿研究问题而非封闭产品其核心能力就不应只存在于公司内部。

在团队内部Chroma从一开始就被当作一种“可被检验的研究假设”而非某个产品模块。模型是否成立不取决于单一业务场景的表现而取决于它在更复杂更开放环境中的适应能力。

重塑AI Agent:从工具到数字员工 AI Agent 数字员工 长期运行 前沿研究 第3张