当前位置：首页 > 科技资讯 > 正文

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代

主机测评网
科技资讯
2026-02-12
495

文｜陆莫斯

封面来源｜AI生成

要洞察AI产业的真实进展，火山引擎如今已成为无法绕过的观察窗口。

“截至今年12月，豆包大模型日均token使用量已飙升至50万亿，同比增幅超过1000%。这一里程碑是在12月18日Force大会现场公布的。”火山引擎总裁谭待面对满座观众宣布。

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代火山引擎豆包大模型视频生成 AgentKit 第1张

对比2025年的16.4万亿，增长曲线极为陡峭图源：火山引擎

MaaS（模型即服务）是衡量模型消耗量的最直接标尺。在这一细分赛道上，火山引擎已稳居国内第一，全球排名亦冲至第三。

2025年中旬，云厂商还在为“AI云第一”的头衔激烈角逐；年末，各大巨头便火速端出迭代新品——谷歌放出Gemini 3与视频模型Veo 3.1，OpenAI则推出GPT-5.2。国内阿里、腾讯等也纷纷更新自家模型阵容。

若为2025年的AI市场提炼两个关键词，多模态与Agent必然高票当选。

本次Force大会上，火山引擎的重点发布也精准落在这两条主线上：

模型侧：豆包旗舰模型1.8、视频生成模型Seedance 1.5 pro；

围绕Agent展开的工具链与生态服务：企业自有模型的推理代工、强化学习平台；企业级AI Agent平台AgentKit；以及针对智能体运营推出的HiAgent“1+N+X”工作站。

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代火山引擎豆包大模型视频生成 AgentKit 第2张

火山引擎总裁谭待

在Force大会上，火山引擎更是将Agent理念贯彻到底——自主搭建了一个大会报名与引导智能体，全程参与现场服务。

“大家可能以为这很简单，但我们做起来也一点都不轻松！”谭待笑着坦言，“现在的模型能力其实已足够强大，但很多企业仍然用不起来，核心痛点是Agent的工具链和生态太早期，导致企业迭代智能体的速度极慢。”

距离2020年火山进军云市场已过去五年。彼时火山还是云圈的新面孔，如今却借大模型东风成长为AI领域的中坚力量——2024年火山营收超110亿元，增速逾60%；2025年这一数字已突破200亿元。

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代火山引擎豆包大模型视频生成 AgentKit 第3张

忘掉参数吧，模型正在变成成熟消费品

2025年的视频模型市场，内卷贯穿全年。

与去年最大的不同在于：厂商们不再只拼参数、秒数，视频生成赛道的竞争已跃升至全新维度——真正的分水岭，是能否直接产出“可发布的完整成片”。

例如，最近各家AI视频厂商都在全力攻坚一个功能：声画同步输出。

过去，模型生成的视频片段多半是半成品，必须经过繁琐的后期剪辑、配音、音画对齐才能使用。创作者往往要辗转多个平台，再投入大量剪辑工时。

此次发布的Seedance 1.5 pro，同样将“开箱即用”作为核心卖点。在Force大会上，谭待对技术参数一带而过，直接展示了一连串涵盖电影、动画、商业拍摄等多种风格的demo。

我们也在第一时间试用了Seedance 1.5 pro。整体感受是：只需最简单的提示词，它就能生成声画完全同步的视频，嘴型与声音的匹配度、情绪/环境氛围的捕捉，以及与画面的整体协调性，都已达到相当成熟的生产级水平。

&amp;nbsp;

提示词：一个小女孩，在一个房间里面，面朝着观众。身后有一个大人把一个圣诞礼物盒子递给她，然后他打开之后，发现一只可爱的小狗从盒子里跳了出来，她开心地笑了，说：“你真好！”

&amp;nbsp;

提示词：一个蓝色头发的动漫少女站在樱花树下，樱花瓣飘落下来。她伸手接住一片花瓣，开心地转了一圈，裙子随着旋转飘起来。她笑着用英语说:“春天终于来了!”

2025年的AI视频模型领域，迭代速度快得惊人。

2024年，各家还在攻克一致性与人物动作表情的自然度——比如防止史密斯吃面吃到一半突然换角。

到了2025年，以Seedance 1.0 pro为代表的上一代版本，主打卖点已是“原生多镜头叙事”：根据复杂剧本自动规划远景、特写、中景的镜头组合，并确保主角高度一致。

而今，这些问题都已不再是最大障碍，视频生成模型快速进化到接近生产级可用。声音，成为兵家必争之地。

无独有偶，下半年快手可灵2.6、谷歌Veo 3.1以及阿里WAN 2.5，都不约而同地将声画同步作为宣传亮点。

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代火山引擎豆包大模型视频生成 AgentKit 第4张

来源：小红书用户@AI哈哈镜

相较之下，Seedance 1.5 pro打出了鲜明的差异牌。

首先，它在口型同步精度上已达到极高水准；而谷歌Veo 3.1等海外模型对中文适配性较弱，经常出现嘴型错位、配音生硬的问题。

其次，Seedance 1.5 pro生成的视频沉浸感更为突出——不仅口型吻合，声音与人物、环境的匹配也浑然一体。

运镜与动作张力，则是Seedance一贯的强项。此次1.5 pro版本重点强化了对电影级运镜指令及动态张力的遵从能力。

例如，在室外场景中，不同天气下人物的声音会呈现悠远的空间感，甚至带有些许回响。

&amp;nbsp;

提示词：一个男人站在雨中的街头，他穿着黑色风衣，雨水顺着他的脸往下流。他慢慢抬起头看向天空，然后低声用上海话说:“是时候做个了断了。”镜头切换到对面的人，对面的人回答：“你要怎么做？”，背景是模糊的霓虹灯和湿漉漉的街道，最后镜头切换到男人背后的几个路人，几个路人在马路对面，静静地观察。

&amp;nbsp;

提示词：一辆红色跑车在山路上疾驰，轮胎摩擦地面冒出白烟。车子快速过弯，车身倾斜。然后镜头切换到驾驶座，司机紧握方向盘，眼神专注，冷哼一声，车子加速冲过终点线

Seedance 1.5 pro生成的视频，其动作幅度、多镜头切换、多主体交互等表现，都明显处于行业第一梯队。

事实上，要实现丝滑的声画同步，不仅需要海量的训练数据，更要在训练架构与路线选择上做出大量针对性调整。

以往，视频生成多基于传统T2V模型，流程是先出画面后配音，得到的是“哑巴视频”，用户必须后期手动配音、配乐、对口型，费时费力。

无论对于追求创作效率的C端用户，还是看重成本与稳定性的B端客户，这项改进都具有实实在在的商业价值。

模型训练架构的革新，也大幅提升了商业化落地效率。例如，通过多阶段蒸馏、量化等工程优化，Seedance 1.5 pro的端到端推理速度提升逾10倍，显著拉低了生成成本。

火山引擎智能算法负责人吴迪曾在采访中透露，在模型训练目标设定之初，火山就重点锚定了B端核心场景的需求，“音画同步”正是客户呼声最高的功能之一。

可以说，随着一致性、运镜、叙事、声音等关键模块相继成熟，AI视频生成的版图正逐步完整。

这背后也折射出整个创作生态的快速成长。

从Seedance 1.5 pro的宣发策略便可见一斑——在小红书上，字节旗下的AI视频智能体小云雀、即梦等账号，主推1.5 pro时选用的素材大多是包含连续动作、有剧情有故事的短视频，浓郁的抖音风格扑面而来。

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代火山引擎豆包大模型视频生成 AgentKit 第5张

小红书上的二创、整活类视频

视频是否具备“可玩性”，往往决定了它的传播上限。Seedance 1.5 pro对方言、对白及强表演场景的优质支持，让模型天生适合在豆包、即梦等C端产品里生成可供二次创作与分享的社交货币——比如方言“整活”视频，正成为AI视频模型屡试不爽的用户拉新利器。

作为短视频巨头，字节跳动对内容爆款逻辑的沉淀无人能及——什么内容会火、为什么火，这些洞察最终都被转化为模型的训练目标。

信号已相当清晰：随着视频生成模型日趋成熟，这些AI生产的视频很快就会与豆包、即梦、小云雀等C端产品深度联动，为用户源源不断地提供可二次创作、可分享的社交资本。

当模型不仅能理解并生成复杂的长镜头、希区柯克变焦等专业电影语言，还能精准复刻川话、粤语、沪语等小众方言，它就不再仅仅是一个技术工具，而具备了逐渐进化为社交平台的潜力。

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代火山引擎豆包大模型视频生成 AgentKit 第6张

大模型已是系统工程较量，但火山要做模型上的减法

火山引擎的迅猛增长，正是当下AI应用爆发的真实写照。

“智能涌现”获悉，与2025年末相比，到2030年豆包大模型的Token调用量预计将增长约100倍。

不过，大模型领域仍处于极早期。火山智能算法负责人吴迪在会后采访中透露了一个数据：国内大约10%到20%的头部企业，消耗了超过90%的Token，大模型服务的渗透率依然很低。

“这个领域的头部效应依然非常明显。”他表示。

仅有好模型，远不足以服务好客户。令人意外的是，火山引擎当下的策略反而是——做减法。

豆包大模型1.8就做了一个令许多厂商不敢效仿的决定：将所有模型能力塞进一个模型。

具体而言，客户只需面对一个API接口，无论是LLM、VLM还是Thinking版本，全部集成在一起，不分版本，无需纠结选型，也不用在不同模型间来回切换。

这与市面上的主流做法截然不同。大多数模型厂商习惯于提供多种模型版本——语言、视觉理解、思考模型等，各版本能力边界清晰。好处是分工明确，但挑战是选择成本高，集成流程繁琐。

在模型层面做减法，难度是指数级上升的，这要求更领先的基础模型——这正是火山反复强调的底座逻辑。

基础模型的能力，直接定义了下游应用的天花板。Seedance 1.5 pro之所以能在声画同步上做到细致入微，背后是豆包基础模型能力的强力支撑。

例如，模型能精准捕捉人物情绪、理解复杂的叙事意图、处理方言的语音语调，这些都依赖于基模在语义理解、情感识别等维度的深厚积淀。

在让模型真正被用起来这件事上，火山引擎搭建了一套更宏大的系统工程。

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代火山引擎豆包大模型视频生成 AgentKit 第7张

来源：火山引擎

如今的Token价格战，正倒逼厂商把模型训练得更高效、更好用，提升MaaS服务的“密度”。

密度是什么？简言之，在相同成本下，模型能提供的价值更高。

通过持续工程优化、训练策略迭代，火山不断压低推理成本，同时维持甚至提升模型性能。Seedance 1.5 pro端到端推理速度提升10倍以上，正是这种优化的直接成果。

就连计费模式，也应当适配AI应用的使用特征。

本次发布会上，火山推出了一项颇具巧思的计费方案：“AI节省计划”。该计划覆盖所有按量后付费的大模型产品，通过阶梯式折扣帮助企业最高节省47%的成本。

“今天行业还按Token计费，但未来绝对不会只有这种消费方式。”2024年，谭待接受“智能涌现”专访时曾这样判断。他认为，未来应该按照交付的“智能”付费，比如用AI写一份报告，按交付物的价值来计费。

在2025年，火山已经开始试行按思考长度分段付费的模式，帮助企业进一步降本。

事实上，从火山成立之初，谭待就反复强调：AI是火山的主旋律。

这句话的含义是：火山的基础设施、产品架构、商业模式，从第一天起就是围绕AI云原生设计的。对于后发的火山而言，传统公有云市场早已插满先行者的旗帜——这是不争的事实。

因此，AI是火山弯道超车的关键。

火山的AI Native属性体现在无数细节中。例如，火山的GPU集群调度系统专门为大模型训练深度优化；存储架构也充分考虑了AI训练对基础设施的极端要求。

AI基础设施的竞争，已从单纯的模型能力比拼，全面演化为系统工程的角力。

对于更广泛的企业客户而言，他们面临的最大难题往往不是模型不够强，而是不知道怎么用、用不起来。一家企业要真正落地大模型与Agent，必须解决数据接入、任务编排、效果评估、成本控制等一系列复杂问题。

这就像拥有一台性能强劲的发动机，却没有配套的传动系统、控制系统和操作界面，普通人根本没法开动。

火山如今正在同步建设模型的“脑”和“手”。

如果说豆包大模型是“脑”，提供核心的理解与生成能力；那么此次重磅发布的AgentKit，就是那只“手”，目标直指降低开发者的门槛。

传统Agent开发，需要开发者自己处理prompt工程、工具调用、状态管理等复杂环节，开发周期长、调试困难。AgentKit将这些底层能力封装起来，开发者只需关注业务逻辑本身。

更重要的是，AgentKit不只是一个开发工具，它还提供完整的运营能力。从Agent的创建、测试、部署，到上线后的监控、优化，形成了闭环。这对企业客户至关重要——他们需要的是可管理、可迭代的解决方案，而不只是一个demo。

火山自身在Agent方面已积累大量实践经验。字节内部的众多业务场景，包括客服、内容审核、数据分析等，都在用Agent提升效率。这些实践中沉淀的能力与经验，最终通过AgentKit对外输出。

在Force大会的演示中，一个企业级的电商客服Agent从零搭建到上线，整个过程只用了不到半小时。这种效率跃迁，对许多企业而言是质的飞跃。

放眼未来，火山在Agent方向的目标非常清晰：让每家企业都能拥有自己的AI助手，就像今天每家企业都有自己的网站和APP一样。这需要的不仅是技术能力，还需要完整的生态支撑。

从这个角度看，火山的雄心已然清晰：它要做的不只是提供模型API，而是构建一个完整的AI基础设施与服务体系，让所有企业都能以极低的门槛、极低的成本用上最前沿的AI能力。

这场系统工程的较量，才刚刚揭幕。

免费vps

本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260224825.html

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代

忘掉参数吧，模型正在变成成熟消费品

大模型已是系统工程较量，但火山要做模型上的减法

初识Linux编译器——gcc （从零掌握编译全过程）

2025大模型进化论：深度、维度、效率三重变革引领智能新纪元

火山引擎Force大会2025：豆包模型日调用破50万亿，视频生成进入声画同步时代

忘掉参数吧，模型正在变成成熟消费品

大模型已是系统工程较量，但火山要做模型上的减法

初识Linux编译器——gcc （从零掌握编译全过程）

2025大模型进化论：深度、维度、效率三重变革引领智能新纪元

相关文章