48小时内,智谱AI和MiniMax相继通过港交所上市聆讯,引发市场热议。有人视其为“大模型第一股”的争夺,也有人认为这是大模型企业资金紧张,急需二级市场“输血”的信号。
财务数据显示,智谱2022年至2025年上半年累计亏损超62亿元;MiniMax在2023年、2024年分别亏损2.69亿美元、4.65亿美元,2025年前9个月再亏5.12亿美元,合计亏损逾87亿元人民币。
由此可见,“盈利难”已成为当前大模型行业普遍面临的困境。头部企业一边推动智能上限的突破,一边承受着惊人的资金消耗,呈现出“参数越高,亏损越大;能力越强,账目越难平衡”的现象。
当市场还在热议“哪个模型更聪明”时,一个更本质的问题浮现:如果连最聪明的算法都无法算清盈亏,这还算是一门好生意吗?一个长期亏损、短期看不到回报的行业,是否还值得持续投入?
每一次技术革命的风口来临前,无人能准确预判方向。只有那些坚守长期主义、持续投入的玩家,才能最终等到风起。
以亚马逊为例,1997年至2001年间,亚马逊连续五年净亏损,2000年互联网泡沫破裂时股价从113美元跌至6美元,直到2003年才首次实现全年盈利,公司成立十年累计亏损超过210亿元。
在盈利之前,华尔街曾断言亚马逊的物流模式过重、毛利率过低,无休止的扩张缺乏盈利纪律,认定它永远无法赚钱,卖得越多亏得越狠。
但从2019年起,无论是因为新一代投资者入场,还是市场终于看清亚马逊的增长潜力,其股价被合力推至2万亿美元,一度超越微软成为全球市值最高的公司。虽然如今又被苹果、英伟达和微软反超,但亚马逊的价值已被广泛认可,市值稳定在2.5万亿美元左右。
亚马逊并非孤例,另一家长期亏损甚至濒临破产的典型,就是如今家喻户晓的特斯拉。2003年至2019年,特斯拉累计亏损超420亿元,尤其在2017至2018年,CEO埃隆·马斯克曾坦言,在实现Model 3产量目标前,公司距离“破产不足10周”。
2018年的特斯拉饱受质疑:“电动车无法规模化”“智能驾驶只是PPT”。当时产业链尚不成熟,电池成本高企,用软件定义汽车的理念也颠覆了传统认知。但随着电池成本下降,以及FSD(全自动驾驶)软件带来收益,特斯拉最终成为市场焦点。
除了这两家公司,云计算也曾长期不被看好,2006年至2010年间甚至被贴上“IT外包2.0”的标签,业内多数人认为企业不会将核心系统迁移到云上。而今天,云计算已成为全球最赚钱的业务之一,A股中许多传统企业转型云计算后,长期维持30%以上的毛利率。当风口真正来临时,业内人士坦言:“前期的亏损是入场券”。
或许有人会说,亚马逊、特斯拉、云计算这些已经成功的案例都是事后诸葛,并非所有长期亏损的企业都能等来盈利拐点。
但事实是,科技浪潮初期的普遍亏损,并非源于“忽视盈利”,而是企业将资源持续投入于难以复制的系统性能力建设。一旦基础设施成型,盈利拐点往往以非线性方式爆发。
亚马逊亏了十年,却将资金砸向仓储、物流和云计算,最终构建了全球最重的电商与云基础设施;特斯拉多年烧钱,赌的是电池成本曲线和规模化制造,一旦跨过临界点,利润便迅速释放;云计算早期被轻视,却用亏损换来了数据中心和调度系统,最终成为高毛利现金牛。
对于新兴行业而言,真正危险的从来不是亏损本身,而是亏损没有换来任何不可替代的价值。
巧合的是,如今亏损的大模型行业,恰恰具备显著的不可替代性。
大模型是指通过海量数据训练、具备通用认知与生成能力、可跨任务迁移使用的人工智能模型。通常参数规模达数十亿至万亿级,经大规模数据与算力训练而成,核心特征在于模型不再针对单一任务设计,而是通过统一结构在多种复杂任务中展现通用智能。大模型可赋能多个行业,从航天航空到港口、保洁、采矿,无所不包。
以前文提到的特斯拉为例,2021年,特斯拉推出BEV+Transformer智能驾驶解决方案,攻克了2D到3D转换、多传感器融合及复杂场景感知难题。
在感知阶段,BEV(鸟瞰图)通过将纯视觉传感器的多模态数据融合在同一平面,将2D图像升级为BEV视角,以全局视角解决数据遮挡和重叠问题,提升物体检测与跟踪精度,从而摆脱对高精地图的依赖。
深度学习神经网络模型(Transformer)的自注意力机制能分析BEV特征图中的不同位置特征,实现从二维图像特征到三维向量空间的转换,帮助系统理解物体间空间关系,进而提升感知能力。
此外,Transformer还能输出高层次语义信息,如物体类别、位置、运动趋势等,在决策模块中结合高层信息与其他预测结果,生成更精准的驾驶策略。BEV+Transformer架构显著提升了系统的感知与决策能力,增强了对“长尾场景”的适应性,逐步具备应对城市复杂路况的能力,将智能驾驶从高速场景推向城市NOA。
2022年,特斯拉进一步引入占用网络技术(OCC),提升动态障碍物识别和复杂场景泛化能力;2023年,特斯拉推出将“感知-决策-控制”全流程整合为端到端一体化架构的智能驾驶解决方案。
在特斯拉的推动下,智驾行业纷纷引入大模型,并演化出“模块化端到端”与“一体化端到端”的技术路径之争。
模块化端到端方面,2024年4月华为发布乾崑ADS3.0架构,设计为“GOD感知网络+PDP决策网络+本能安全网络”,采用三网协同的端到端大模型,通过GOD提供无损感知数据、PDP进行拟人决策、本能安全网络兜底应急,形成“感知-决策-安全”闭环。
2024年5月小鹏发布国内首个量产端到端大模型XNGP+,整合神经网络XNet、规控大模型XPlanner和大语言模型XBrain三大板块。XBrain由感知模块XNet2.0和规划控制模块XPlanner构成,二者通过神经网络直接连接,实现模块间深度耦合,形成小鹏自有的端到端智驾大模型。
一体化端到端方面,2024年10月理想推出OneModel端到端+VLM双系统架构,通过单一模型实现从传感器输入到行驶轨迹的全链条直接映射,同时引入视觉语言模型(VLM)构建双系统并行框架,利用VLM的认知推理能力规范端到端模型的行为下限,在拟人化驾驶、复杂场景处理和安全冗余层面实现突破。
在端到端架构下,模型从海量数据中学习规律,不再依赖人工迭代规则库,具备了全局优化能力和数据驱动的泛化特性,真正从“规则驱动”跨越到“数据驱动”,进一步解决部分长尾场景与拟人化决策,显著提升智能驾驶系统性能,推动智能驾驶向L3级别过渡。
进入L3时代后,端到端模型仍存在明显的数据瓶颈和泛化缺陷。模型通过观看大量驾驶视频,学习场景时空特征与驾驶策略的映射关系,直接生成控制指令。
端到端技术具备无损传递、全局优化和一定泛化能力,能满足L2级别部分自动驾驶要求,但其自身局限性制约了L3级别全动态驾驶任务的自主执行。
此时需进一步引入VLA大模型,即Vision(视觉)、Language(语言)、Action(动作),从输出动作指令升级为思考为何输出该指令。国内企业理想、小鹏均已布局该技术领域,积累了一定技术储备。
大模型在智驾领域的成就,再次推动算力领域的投入,包括车载算力芯片研发和云计算储备。这也是大模型企业持续亏损却仍能获得投资的重要原因——它们能推进多行业融合,实现多行业共同迭代。
能助力其他行业发展的大模型,没有理由被市场淘汰,更不会等不到行业拐点。现在唯一需要担心的是,谁能活到不需要讲故事的那一天。
当前主流大模型集中在中美,根据Artificial Analysis的数据与模型智能指标,头部模型整体由美国阵营领跑,海外代表有OpenAI、xAI、Anthropic与Google;曾在开源领域表现突出的Meta,因Llama4系列推进不顺等因素,模型性能阶段性落后。
国内方面,从模型性能维度看,DeepSeek、Qwen(阿里系)、智谱模型位居前列,Kimi与MiniMax等也处于国内领先行列。腾讯、百度的模型虽未纳入排行榜,但各有特色。上述格局反映了中美在基础模型与工程化推进上的综合优势。
从现阶段表现看,Google在各维度布局相对均衡且覆盖面广,体现为从底层自研硬件(TPU系列)到应用的端到端一体化优势。其他玩家也在逐步补齐短板,如OpenAI在底层定制化硬件方面暂处落后,但据路透社消息,OpenAI已宣布与博通合作开发新一代ASIC芯片,以期强化算力与成本控制;国内DeepSeek V3.1及之后系列、智谱GLM4.6在Day0即适配了国产芯片。
梳理上述模型不难发现,当前全球大模型仍以Transformer的decoder-only架构为核心主流。尽管近年来出现Mamba、KAN等新型网络结构,但尚未在工程实践中形成主导地位,Transformer体系依旧占据核心,短期内仍将是研发与优化的基础框架,其生态与工具链优势将继续巩固主导地位。
目前可能挑战Transformer架构的,是Sora搭载的Diffusion架构,但该架构主要用于图像与视频生成。
2024年初Sora发布,展现了Diffusion与Transformer结合的潜力,显著提升视频生成的一致性、分辨率及时长。2025年5月,Google首次尝试将Diffusion算法用于文本生成,发布Gemini Diffusion预览版,字节随后推出Seed Diffusion跟进。有观点认为,字节Seed Diffusion Preview性能已超过Google Gemini Diffusion。
Transformer体系下,Scaling Law是核心逻辑,Scaling Law 2.0以“后训练+强化学习”为核心路径,Grok迭代验证了该方向。
从xAI的发布节奏可见Scaling Law侧重的迁移。Scaling Law 1.0阶段,对应xAI从Grok2到Grok3的迭代,主要通过将预训练算力扩大约10倍带来性能跃升;Grok3的推理模型标志着进入后训练阶段;至Grok4发布,后训练算力相较Grok3再度放大10倍,使其接近预训练算力需求。
从目前头部模型迭代进度看,后训练算力需求可能继续增加。据xAI官网,Grok4依托20万卡级别的Colossus集群训练,持续扩大后训练的模式与海外更高密度算力集群禀赋相匹配。
Scaling Law 2.0体现出算力重心由预训练向后训练与推理环节迁移,并对高密度集群供给提出更高要求。Grok 4.1又在强化学习奖励范式上引入Agent模型奖励,继续在后训练算力上实现数量级提升。
值得注意的是,在大模型迅速迭代下,各家公司除追求技术外,还纷纷涌入算力扩张之路,尤其以OpenAI最为迅猛。
而国内企业由于算力受限,不得不进行创新性架构优化,抓住Attention本质,以阿里、DeepSeek最具代表性。
从当前技术演进看,Transformer架构中短期内仍将是主流,其核心算法Attention机制(通过计算Tokens间相关性预测最优输出),构成了模型性能的关键环节。因此,国内头部厂商普遍聚焦于Attention层面的优化与创新,其中以阿里的Qwen系列与DeepSeek模型为典型代表。在算力约束短期难突破的情况下,架构创新与算法精炼将成为国内基础模型竞争的主要方向。
以DeepSeek V3.2为例,DeepSeek V3.2-Exp在性能上与上一版V3.1-Terminus差距不大,并将V3.2定位为“迈向新一代架构”的中间步骤。V3.2最大进步在于引入DSA(Dynamic Sparse Attention),模型训练与推理效率显著提升,相比上一代,API输入与输出成本分别下降约50%与75%以上。
DSA的核心优化集中在Attention机制层,通过算子级与内核级的工程化重构,在长上下文任务中显著压缩训练与推理开销,同时尽量保持模型性能稳定,延续了以架构精修换取综合效率提升的技术路线。该版本体现了在算力约束下的务实取舍,既为后续架构演进奠定技术基础,也展示出国产模型在底层优化方面的持续积累。
DSV3框架的成功,促使许多模型在DeepSeek V3框架上引入针对性架构优化,如Kimi K2。K2主要改进包括:验证在激活参数不变条件下,单纯提升MoE总参数量仍符合Scaling规律,训练与验证loss持续下降且无过拟合;适度减少Attention head数量,保持性能稳定同时显著降低算力开销;仅保留首层dense层,其余全部采用MoE结构,改善首层router负载不均并提升专家利用效率;引入无分组简化router,优化计算路径与参数调度;将模型参数从V3的671B提升至1T;引入MuonClip优化器,显著提升训练稳定性与收敛一致性。
得益于上述改进,K2在维持与DeepSeek V3相当的训练与推理成本下,实现了更低loss与更高参数效率。K2的路径体现了国内团队在算力约束下通过结构精修延展Scaling规律、提升模型性价比的工程化思路。
在头部玩家合力推动下,推理/非推理模型统一后,模型应用转折点或将到来。例如GPT-5以统一架构实现快思与深思的自适应协同,并以路由器按任务动态分配资源;GPT-5.1以自适应推理与细化模型分工提升智能表现与交互体验;DeepSeek V3.1以混合推理架构落地统一模型,实现单体兼容快思与深思。
在统一系统落地之后,头部大模型厂商的研发重心正逐步从底层模型优化转向应用与商业化探索,技术竞争正从模型理论创新转向产品体验与生态建设。
当大模型的“底座”逐渐统一,真正的竞争才刚刚开始。
现阶段,大模型行业如同高速公路已修好,接下来比拼的不再是谁会铺路,而是谁能造出更多跑得起来的车。
当底层系统逐步统一,厂商的竞争自然从“模型有多强”转向“产品好不好用、生态能不能跑起来”。技术优势开始让位于商业能力,真正的考验才刚刚开始。
行业内的头部厂商,早已不再纠结模型再大一点、参数再多一点,而是把重心转向:谁的产品更好用,谁能先把智能卖出去。这意味着,大模型之争正从实验室里的理论创新,转移到真实世界的产品体验和生态争夺。今天正在亏损的企业,谁敢断言不会迎风起飞,成为下一个亚马逊或者特斯拉?
本文由主机测评网于2026-03-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260330407.html