小模型迅速蹿红背后,并非因比大模型更先进,而是因Agent作为AI落地的主要形态,正好需要小模型这种“刚刚好的智能”。
2025年2月,深圳福田区,部署70名“AI数智员工”,承担240个政务场景中的文书起草、政策解读、招商辅助等任务。系统上线后,公文格式修正准确率超过95%,审核时间缩短90%,民情分拨效率从70%提升至95%。
支撑这70名AI数智员工的,是671B的DeepSeek‑R1。
DeepSeek以专家混合技术,根据任务自动激活部分网络,只运行需要的部分,从而显著降低推理资源占用,用更少的算力解决更复杂的问题。
严格意义上来说,DeepSeek不算是小模型,但它的出现,让人们开始思考大语言模型的“大”真的有必要吗。
这,成为小模型叙事的起点。后面的几个月里,一些新的变化开始出现。
“2025年初,我们尝试接入云端大模型,性能虽强,但调用延迟、成本与数据隐私问题都让人头疼。后来改用某大模型厂商4B模型,几小时就部署成功,响应秒级,隐私也有保障。”某SaaS厂商负责人说道。
也是在2025年初,某家智能家居创业团队在开发可脱网的语音设备时,曾苦恼于大语言模型既占空间又拖性能。这时,参数轻量的0.6B、1.7B、4B版本立刻引起他们关注。当把这款模型部署在家用路由器的8GB内存上时,发现其无需高端GPU,设备即可本地完成自然语言理解与指令执行,无需联网,既节省延迟也保障隐私。
这种“刚刚好”的智能,逐渐成为一些企业的心头好。
据MarketsandMarkets™研究预测,2025年全球小语言模型市场规模将达9.3亿美元,2032年有望增至54.5亿,年复合增长率高达28.7%。Gartner的报告指出,已有68%的企业部署过SLM,超过45%的企业在部署后实现了成本优化与准确率双提升。
与市场需求对应的,是服务商侧的动作,“小体量、高性能”正成为厂商角力的新主战场。
据不完全统计,过去三年,国内厂商“≤10B参数”小模型的发布占比一路从2023年的约23%提升至2025年的56%以上,已成为大模型版图里增长最快的细分赛道。
在这一连串变化背后,一些问题浮出水面:从大模型到小模型,AI落地经历了怎样的转变?小模型具体应用在哪些场景?企业又是如何将其真正落地的?
据不完全统计数据显示,2024全年智能体构建平台相关中标项目达570个,372个项目公开金额,总金额达23.52亿元。而2025上半年相关中标项目数量已达371个,是去年同期的3.5倍。接近去年全年总量的三分之二。
如果说2023年是大模型的狂飙元年,那么2024年就是Agent被推到舞台中央的一年。当下则是Agent的爆发之年。
它们被寄望于接管企业流程中的重复性任务。对外是客户看得见的智能接口;对内是提升效率的关键工具。
但很快一个矛盾浮现出来。
一份题为《生成式AI鸿沟:2025年AI在商业中现状》的报告显示:95%的受访企业称在生成式AI投资中未获得任何实际回报,仅5%获得了转型回报。
Agent落地效果与其爆发之势并不对等。这让业内开始思考到底哪里出了问题。
“主流的AI代理系统普遍采用大型语言模型(LLM),与企业需求并不匹配。”在英伟达与佐治亚理工学院研究人员联合发布的《Small Language Models are the Future of Agentic AI》论文中这一观点被提出。
事实上,在理想化的演示场景中GPT-4能一口气写出一份营销方案也能跨多个步骤完成复杂推理。但企业真正的落地需求往往更朴素。比如客服Agent只需回答账单在哪儿、怎么退货;文档Agent更多是做摘要、整理重点;财务Agent要做的就是把报销单里的关键信息提取出来。
这些任务的共同点是流程清晰、目标确定、重复性强。它们并不需要一个能写诗、能讲故事的大脑而需要一个记得住流程、干活稳的助手。
于是问题来了如果用大模型去驱动这些Agent效果可能是“杀鸡用牛刀”。大模型虽然强大却未必是Agent最合适的引擎。
根据一家互联网大厂的测试GPT-4驱动的客服Agent一天10万次调用API费用接近40万元人民币一个月就是上千万。而换成7B左右的小模型成本下降了90%以上比如阿里发布的Qwen2.5-Coder-7B在代码生成场景里比上一代大模型更稳定且推理成本下降了70%以上。
此外大模型一次推理往往需要2-3秒甚至更久。但在金融交易或客服场景里2秒的延迟就可能带来投诉或风险。相比之下小模型可以在500毫秒内返回结果。就像腾讯HunyuanLite-6B在多轮工具调用场景下成功率达92%平均响应时间不到大模型的一半。
很多Agent需要处理企业的敏感数据比如用户身份信息、医疗记录、财务数据。大模型多依赖云端调用数据必须上传到外部服务器。百度推出的ERNIELite-3B可以直接集成到政务知识问答场景中本地化部署后避免了数据外泄。
所以无论是从成本、速度还是数据隐私安全方面来看推动Agent落地方面小模型都更为“合算”。
那么小模型的落地究竟怎么样呢?
其实小模型的特性让其在一些场景里显现出足够的“性价比”。不过即使如此也没有人断言“小模型能完全取代大模型”。
目前来看小模型落地的典型场景都是“流程清晰、重复性强、对隐私和成本敏感”的业务。
例如客服与文档分类等标准化流程任务。美国基贷服务商Mr.Cooper和TD Bank等企业通过中型甚至小型模型对客服通话内容进行分类、摘要或预测用户需求。这样既节省成本又提升效率。
还有金融/法律等高合规要求领域McKinsey报告指出SLM在法律、金融、医疗等行业因专用领域训练更高解释性更受青睐。这些行业的Agent需要精确、合规不适合依赖模糊的通用泛化能力。
本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440644.html