文|陆莫斯
封面来源|AI生成
要洞察AI产业的真实进展,火山引擎如今已成为无法绕过的观察窗口。
“截至今年12月,豆包大模型日均token使用量已飙升至50万亿,同比增幅超过1000%。这一里程碑是在12月18日Force大会现场公布的。”火山引擎总裁谭待面对满座观众宣布。
对比2025年的16.4万亿,增长曲线极为陡峭 图源:火山引擎
MaaS(模型即服务)是衡量模型消耗量的最直接标尺。在这一细分赛道上,火山引擎已稳居国内第一,全球排名亦冲至第三。
2025年中旬,云厂商还在为“AI云第一”的头衔激烈角逐;年末,各大巨头便火速端出迭代新品——谷歌放出Gemini 3与视频模型Veo 3.1,OpenAI则推出GPT-5.2。国内阿里、腾讯等也纷纷更新自家模型阵容。
若为2025年的AI市场提炼两个关键词,多模态与Agent必然高票当选。
本次Force大会上,火山引擎的重点发布也精准落在这两条主线上:
模型侧:豆包旗舰模型1.8、视频生成模型Seedance 1.5 pro;
围绕Agent展开的工具链与生态服务:企业自有模型的推理代工、强化学习平台;企业级AI Agent平台AgentKit;以及针对智能体运营推出的HiAgent“1+N+X”工作站。
火山引擎总裁谭待
在Force大会上,火山引擎更是将Agent理念贯彻到底——自主搭建了一个大会报名与引导智能体,全程参与现场服务。
“大家可能以为这很简单,但我们做起来也一点都不轻松!”谭待笑着坦言,“现在的模型能力其实已足够强大,但很多企业仍然用不起来,核心痛点是Agent的工具链和生态太早期,导致企业迭代智能体的速度极慢。”
距离2020年火山进军云市场已过去五年。彼时火山还是云圈的新面孔,如今却借大模型东风成长为AI领域的中坚力量——2024年火山营收超110亿元,增速逾60%;2025年这一数字已突破200亿元。
2025年的视频模型市场,内卷贯穿全年。
与去年最大的不同在于:厂商们不再只拼参数、秒数,视频生成赛道的竞争已跃升至全新维度——真正的分水岭,是能否直接产出“可发布的完整成片”。
例如,最近各家AI视频厂商都在全力攻坚一个功能:声画同步输出。
过去,模型生成的视频片段多半是半成品,必须经过繁琐的后期剪辑、配音、音画对齐才能使用。创作者往往要辗转多个平台,再投入大量剪辑工时。
此次发布的Seedance 1.5 pro,同样将“开箱即用”作为核心卖点。在Force大会上,谭待对技术参数一带而过,直接展示了一连串涵盖电影、动画、商业拍摄等多种风格的demo。
我们也在第一时间试用了Seedance 1.5 pro。整体感受是:只需最简单的提示词,它就能生成声画完全同步的视频,嘴型与声音的匹配度、情绪/环境氛围的捕捉,以及与画面的整体协调性,都已达到相当成熟的生产级水平。
2025年的AI视频模型领域,迭代速度快得惊人。
2024年,各家还在攻克一致性与人物动作表情的自然度——比如防止史密斯吃面吃到一半突然换角。
到了2025年,以Seedance 1.0 pro为代表的上一代版本,主打卖点已是“原生多镜头叙事”:根据复杂剧本自动规划远景、特写、中景的镜头组合,并确保主角高度一致。
而今,这些问题都已不再是最大障碍,视频生成模型快速进化到接近生产级可用。声音,成为兵家必争之地。
无独有偶,下半年快手可灵2.6、谷歌Veo 3.1以及阿里WAN 2.5,都不约而同地将声画同步作为宣传亮点。
来源:小红书用户@AI哈哈镜
相较之下,Seedance 1.5 pro打出了鲜明的差异牌。
首先,它在口型同步精度上已达到极高水准;而谷歌Veo 3.1等海外模型对中文适配性较弱,经常出现嘴型错位、配音生硬的问题。
其次,Seedance 1.5 pro生成的视频沉浸感更为突出——不仅口型吻合,声音与人物、环境的匹配也浑然一体。
运镜与动作张力,则是Seedance一贯的强项。此次1.5 pro版本重点强化了对电影级运镜指令及动态张力的遵从能力。
例如,在室外场景中,不同天气下人物的声音会呈现悠远的空间感,甚至带有些许回响。
Seedance 1.5 pro生成的视频,其动作幅度、多镜头切换、多主体交互等表现,都明显处于行业第一梯队。
事实上,要实现丝滑的声画同步,不仅需要海量的训练数据,更要在训练架构与路线选择上做出大量针对性调整。
以往,视频生成多基于传统T2V模型,流程是先出画面后配音,得到的是“哑巴视频”,用户必须后期手动配音、配乐、对口型,费时费力。
无论对于追求创作效率的C端用户,还是看重成本与稳定性的B端客户,这项改进都具有实实在在的商业价值。
模型训练架构的革新,也大幅提升了商业化落地效率。例如,通过多阶段蒸馏、量化等工程优化,Seedance 1.5 pro的端到端推理速度提升逾10倍,显著拉低了生成成本。
火山引擎智能算法负责人吴迪曾在采访中透露,在模型训练目标设定之初,火山就重点锚定了B端核心场景的需求,“音画同步”正是客户呼声最高的功能之一。
可以说,随着一致性、运镜、叙事、声音等关键模块相继成熟,AI视频生成的版图正逐步完整。
这背后也折射出整个创作生态的快速成长。
从Seedance 1.5 pro的宣发策略便可见一斑——在小红书上,字节旗下的AI视频智能体小云雀、即梦等账号,主推1.5 pro时选用的素材大多是包含连续动作、有剧情有故事的短视频,浓郁的抖音风格扑面而来。
小红书上的二创、整活类视频
视频是否具备“可玩性”,往往决定了它的传播上限。Seedance 1.5 pro对方言、对白及强表演场景的优质支持,让模型天生适合在豆包、即梦等C端产品里生成可供二次创作与分享的社交货币——比如方言“整活”视频,正成为AI视频模型屡试不爽的用户拉新利器。
作为短视频巨头,字节跳动对内容爆款逻辑的沉淀无人能及——什么内容会火、为什么火,这些洞察最终都被转化为模型的训练目标。
信号已相当清晰:随着视频生成模型日趋成熟,这些AI生产的视频很快就会与豆包、即梦、小云雀等C端产品深度联动,为用户源源不断地提供可二次创作、可分享的社交资本。
当模型不仅能理解并生成复杂的长镜头、希区柯克变焦等专业电影语言,还能精准复刻川话、粤语、沪语等小众方言,它就不再仅仅是一个技术工具,而具备了逐渐进化为社交平台的潜力。
火山引擎的迅猛增长,正是当下AI应用爆发的真实写照。
“智能涌现”获悉,与2025年末相比,到2030年豆包大模型的Token调用量预计将增长约100倍。
不过,大模型领域仍处于极早期。火山智能算法负责人吴迪在会后采访中透露了一个数据:国内大约10%到20%的头部企业,消耗了超过90%的Token,大模型服务的渗透率依然很低。
“这个领域的头部效应依然非常明显。”他表示。
仅有好模型,远不足以服务好客户。令人意外的是,火山引擎当下的策略反而是——做减法。
豆包大模型1.8就做了一个令许多厂商不敢效仿的决定:将所有模型能力塞进一个模型。
具体而言,客户只需面对一个API接口,无论是LLM、VLM还是Thinking版本,全部集成在一起,不分版本,无需纠结选型,也不用在不同模型间来回切换。
这与市面上的主流做法截然不同。大多数模型厂商习惯于提供多种模型版本——语言、视觉理解、思考模型等,各版本能力边界清晰。好处是分工明确,但挑战是选择成本高,集成流程繁琐。
在模型层面做减法,难度是指数级上升的,这要求更领先的基础模型——这正是火山反复强调的底座逻辑。
基础模型的能力,直接定义了下游应用的天花板。Seedance 1.5 pro之所以能在声画同步上做到细致入微,背后是豆包基础模型能力的强力支撑。
例如,模型能精准捕捉人物情绪、理解复杂的叙事意图、处理方言的语音语调,这些都依赖于基模在语义理解、情感识别等维度的深厚积淀。
在让模型真正被用起来这件事上,火山引擎搭建了一套更宏大的系统工程。
来源:火山引擎
如今的Token价格战,正倒逼厂商把模型训练得更高效、更好用,提升MaaS服务的“密度”。
密度是什么?简言之,在相同成本下,模型能提供的价值更高。
通过持续工程优化、训练策略迭代,火山不断压低推理成本,同时维持甚至提升模型性能。Seedance 1.5 pro端到端推理速度提升10倍以上,正是这种优化的直接成果。
就连计费模式,也应当适配AI应用的使用特征。
本次发布会上,火山推出了一项颇具巧思的计费方案:“AI节省计划”。该计划覆盖所有按量后付费的大模型产品,通过阶梯式折扣帮助企业最高节省47%的成本。
“今天行业还按Token计费,但未来绝对不会只有这种消费方式。”2024年,谭待接受“智能涌现”专访时曾这样判断。他认为,未来应该按照交付的“智能”付费,比如用AI写一份报告,按交付物的价值来计费。
在2025年,火山已经开始试行按思考长度分段付费的模式,帮助企业进一步降本。
事实上,从火山成立之初,谭待就反复强调:AI是火山的主旋律。
这句话的含义是:火山的基础设施、产品架构、商业模式,从第一天起就是围绕AI云原生设计的。对于后发的火山而言,传统公有云市场早已插满先行者的旗帜——这是不争的事实。
因此,AI是火山弯道超车的关键。
火山的AI Native属性体现在无数细节中。例如,火山的GPU集群调度系统专门为大模型训练深度优化;存储架构也充分考虑了AI训练对基础设施的极端要求。
AI基础设施的竞争,已从单纯的模型能力比拼,全面演化为系统工程的角力。
对于更广泛的企业客户而言,他们面临的最大难题往往不是模型不够强,而是不知道怎么用、用不起来。一家企业要真正落地大模型与Agent,必须解决数据接入、任务编排、效果评估、成本控制等一系列复杂问题。
这就像拥有一台性能强劲的发动机,却没有配套的传动系统、控制系统和操作界面,普通人根本没法开动。
火山如今正在同步建设模型的“脑”和“手”。
如果说豆包大模型是“脑”,提供核心的理解与生成能力;那么此次重磅发布的AgentKit,就是那只“手”,目标直指降低开发者的门槛。
传统Agent开发,需要开发者自己处理prompt工程、工具调用、状态管理等复杂环节,开发周期长、调试困难。AgentKit将这些底层能力封装起来,开发者只需关注业务逻辑本身。
更重要的是,AgentKit不只是一个开发工具,它还提供完整的运营能力。从Agent的创建、测试、部署,到上线后的监控、优化,形成了闭环。这对企业客户至关重要——他们需要的是可管理、可迭代的解决方案,而不只是一个demo。
火山自身在Agent方面已积累大量实践经验。字节内部的众多业务场景,包括客服、内容审核、数据分析等,都在用Agent提升效率。这些实践中沉淀的能力与经验,最终通过AgentKit对外输出。
在Force大会的演示中,一个企业级的电商客服Agent从零搭建到上线,整个过程只用了不到半小时。这种效率跃迁,对许多企业而言是质的飞跃。
放眼未来,火山在Agent方向的目标非常清晰:让每家企业都能拥有自己的AI助手,就像今天每家企业都有自己的网站和APP一样。这需要的不仅是技术能力,还需要完整的生态支撑。
从这个角度看,火山的雄心已然清晰:它要做的不只是提供模型API,而是构建一个完整的AI基础设施与服务体系,让所有企业都能以极低的门槛、极低的成本用上最前沿的AI能力。
这场系统工程的较量,才刚刚揭幕。
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224825.html