一项基于百万亿Token的大规模分析近日揭示了2025年人工智能领域的发展脉络,这份由OpenRouter与知名风投a16z联合发布的报告在海外社交平台引发热议。
无论是其独特的分析视角,还是得出的诸多结论,都成为𝕏平台上网友讨论的焦点。
值得注意的是,报告明确肯定了中国开源模型的贡献,其每周Token用量占比一度高达30%。除了备受关注的DeepSeek,编程赛道的新锐MiniMax也被特别提及。
这份名为《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》的报告,由OpenRouter和a16z联手打造。
它分析了自2024年11月至2025年11月期间,OpenRouter平台上超过300个模型的实际调用数据,覆盖了GPT系列、Claude、Gemini、DeepSeek、Qwen、Kimi等国内外主流开源与闭源模型。
该研究的统计维度颇为新颖——不再拘泥于各类基准测试分数,而是聚焦于模型真实的Token消耗量。
Token消耗量直观体现了模型被采纳的程度和应用场景,因此比传统测试分数更能揭示其实际价值。
此次,他们依托100万亿Token的海量数据,提炼出以下核心洞察(精简版):
预计至2025年底,开源模型的使用份额将逼近约三分之一,与闭源模型形成互补格局,而非此消彼长的零和博弈;
在开源阵营中,中国模型表现抢眼,流量占比从1.2%飙升至30%;
模型的角色正从“语言生成工具”蜕变为“推理执行系统”,推理模型成为新的主流范式;
编程与角色扮演占据模型应用的主导地位;
用户留存呈现“水晶鞋效应”(一旦契合需求便能大放异彩),新模型发布时能否精准解决特定痛点成为关键;
模型价格下降固然重要,但其影响力远非想象中那般决定性。
若想全面把握2025年AI发展图景,不妨与量子位一同深入研读。
关于开源模型(OSS模型),报告主要解答了以下几个关键问题:
问题1:过去一年,开源与闭源模型的势力对比如何演变?问题2:哪些开源参与者崭露头角?问题3:开源模型的形态正经历哪些变革?
首先,以往普遍认为开源模型只是闭源模型的“廉价替代品”,开发者往往需二选一。而今,开源模型已确立自身独特定位,成为特定场景下的首选方案。
因此,当前二者的关系更趋向互补,开发者常常同时采纳两类模型。
值得关注的是,开源模型的使用量持续稳健攀升——随着DeepSeek V3、Kimi K2等主要开源模型的发布,预计到2025年底其份额将达约三分之一。
与此同时,中国开源模型正成为这一增长的核心驱动力。
国产开源模型的每周使用量占比,从去年底的1.2%最高攀升至30%,平均亦达13%。作为对比,其他地区开源模型的平均份额为13.7%。
不过需说明,开源模型的格局已发生显著变迁——
尽管按总使用量计,DeepSeek仍是最大贡献者。但随着更多开源模型入局,其主导地位有所削弱。
以“夏季拐点(2025年中)”为界,上半年开源力量高度集中于DeepSeek V3和R1(约占一半以上),下半年则呈现多元化态势,包括MiniMax M2、Kimi K2、GPT-OSS等相继发布。
预计到2025年底,将无单一模型能持续占据超25%的Token用量,整个开源市场将由5至7个模型共同分割。
总之,2025年开源领域的竞争明显加剧,且未来大概率不会再现一家独大的局面。
此外,开源模型的形态亦在演变,目前中型模型更受市场青睐。报告分类如下:
大型:参数达700亿或以上
中型:参数介于150亿至700亿之间
小型:参数低于150亿
此前开源模型多在两极间权衡——要么“快但弱”,要么“强但贵/慢”,缺乏“既快又足够强”的中间选项。
而今,尽管大、中、小型模型数量均在增长,但数据显示小模型正逐渐失宠,而中型和大型模型正在填补空缺。
报告提到,在2024年11月Qwen2.5-Coder-32B发布之前,这一细分市场几乎可忽略不计。但随后Mistral Small 3和GPT-OSS 20B等模型涌入,使其逐步成为新竞技场。报告指出:
小模型主导开源生态的时代或许已落幕。市场正分化为两类:用户要么倾向于新兴的、强大的中型模型类别,要么将工作负载整合至最强大的单个大型模型上。
其次,语言模型正从对话系统向推理系统、执行系统演进。
年初时,用于推理的Token用量尚可忽略,如今已超50%。
在所有推理模型中,目前马斯克xAI旗下的Grok Code Fast 1占据最大推理流量份额,领先于Gemini 2.5 Pro和Gemini 2.5 Flash。
而大约几周前,Gemini 2.5 Pro还是主力,此外DeepSeek R1和Qwen3也位列前茅。报告表示:
推理模型正成为实际工作负载的默认选择。
同时,模型调用工具的占比也在上升。
该功能最初仅集中于少数模型,包括GPT-4o-mini和Claude 3.5、3.7系列,年初它们占了大头。
而到年中,越来越多模型开始支持工具调用,反映出更具竞争力和多样化的生态。
从9月底起,Claude 4.5 Sonnet模型迅速获取份额,同时Grok Code Fast和GLM 4.5等新玩家也取得可见进展。
报告向模型运营商释放明确信号:
工具使用在高价值工作流中呈上升趋势。缺乏可靠工具能力的模型,在企业采纳和编排环境方面有落后风险。
此外,过去一年AI模型的使用方式发生根本性转变,主要体现在三点:
一是任务复杂度提升——从“写短文”到“解难题”。
以往用户主要让AI生成文章或简单回答,如今更多是分析整份文档、代码库或长对话记录,从中提炼关键信息。
二是输入输出均变得“厚重”。
报告显示,用户平均每次提示词长度增加约4倍,反映工作负载越来越依赖上下文信息。
且因模型推理消耗更多Token,完成任务所需的用量增加近3倍。
三是模型正演变为“自动Agent”。
用户不再满足于单轮问答。典型用法是赋予模型复杂目标,让其自主规划步骤、调用工具(如搜索、运行代码)、在长对话中保持状态并最终完成任务。
换言之,AI正从“聊天机器人”转变为能独立完成工作的“智能Agent”。
值得注意的是,在所有任务类别中,编程和角色扮演目前是AI的主要应用领域。
编程是增长最稳定的类别,其查询用量从年初的11%攀升至近期超50%。
在所有编程模型中,Claude系列长期占据主导,大部分时间份额超60%。
但这一地位正被动摇。2025年11月,Anthropic在该领域的市场份额首次跌破60%;7月以来,OpenAI的份额已从约2%增至近几周的约8%。
同期,谷歌份额保持稳定,约15%。此外,Qwen、Mistral等开源模型也在稳步提升份额。报告特别提到:
尤其是MiniMax,已成为快速崛起的新秀,近几周取得显著增长。
此外,角色扮演几乎与编程持平。在开源模型中(限制较少),其占比甚至高达52%。
在这一领域,中国开源模型与西方开源模型平分秋色。DeepSeek的流量中,超2/3为角色扮演和闲聊,彰显其在消费端的极高粘性。
除了DeepSeek在角色扮演上表现突出,用户对各大主流模型也形成了各自偏好的“打开方式”。
Anthropic无疑是当之无愧的编程专家,其80%以上流量用于编程和技术任务。
谷歌则更像一位通才,用途广泛,涵盖法律、科学、技术及常识查询。
马斯克旗下的xAI同样深耕编程,其技术应用、角色扮演及学术用途在十一月下旬显著增长。
OpenAI的工作重点则随时间明显偏移,从娱乐休闲逐渐转向编程和技术类任务。
Qwen模型同样发力编程,角色扮演和科学类任务则随时间有所波动。
总之,用户使用最多的编程正成为兵家必争之地。
此外,报告针对用户留存问题提出有趣的“水晶鞋效应”。
它指大部分用户会快速流失,但每一代“前沿”AI模型发布时,都会锁定一小批“天选用户”。这些用户的任务需求恰好与模型的新能力完美匹配,如同灰姑娘穿上刚好合脚的水晶鞋。一旦穿上,便很难换掉,即便后续有更优模型出现。
典型例子是5月发布的Claude 4 Sonnet和6月发布的Gemini 2.5 Pro,其用户留存率在5个月后仍保持40%的高水平,这正得益于它们在工具调用和推理能力上的突破。
这也提醒业界,有时“快”比“好”更重要。首个以突破性能力解决关键问题的模型,即便后来被全面赶超,也能凭借早期建立的用户习惯和系统集成,长期守住基本盘。
这里用一些熟知的模型示例,看看具体有哪几种模式:
成功锁定(如Claude、GPT-4o Mini):刚发布时就抓住核心用户,粘性极高。
从未合脚(如Gemini 2.0 Flash):发布时未带来突破性能力,用户留不住,表现平平。
回旋镖效应(如DeepSeek):部分用户试用后离开,但尝试其他模型后又返回,因其在性价比或特定能力上仍是更优选择。
不过报告也提到,“水晶鞋效应”的窗口期很短,基本仅在模型刚发布、被视为“最前沿”的那段时间。
一旦后续竞品发布,能力差距被抹平,再想吸引和锁定新用户便极为困难。
另外,除上述内容外,报告还得出其他结论:
AI不再局限于硅谷,亚洲地区付费使用量占比从13%翻倍至31%;
北美AI地位相对下降,虽仍是最大市场,但份额已不足50%;
英语仍占82%绝对主导,但简体中文以近5%份额位居第二;
模型定价对使用量影响比想象中小,价格下降10%,使用量仅增加0.5%-0.7%。
而且降价并不意味着用户支出减少。当某些模型变得足够便宜且好用,人们会在更多场景、用更长上下文、更频繁地调用它。
于是总Token反而飙升,总支出未必降低,这便是报告中提及的“杰文斯悖论”。
最后需提醒,这份报告也存在一定局限性。OpenRouter主要反映开发者和服务端API调用行为,但现实中大量用户通过App或Web直接访问(如ChatGPT App/Web),这些流量不在OpenRouter内。
且OpenRouter的定价策略会影响开发者选择。例如,若GPT-5.1在平台上贵而Claude更便宜,那么使用数据可能向Claude倾斜,但这并不代表“Claude更受欢迎”。
尽管如此,这份报告无疑为我们提供了一个新视角、一份新参考答案。
而这,或许是其最大价值所在。
参考链接:
[1]https://x.com/OpenRouterAI/status/1996678816820089131
[2]https://x.com/imxiaohu/status/1997489223486865912
本文由主机测评网于2026-03-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260328088.html