当前位置:首页 > 科技资讯 > 正文

火山引擎Force大会2025:AI视频生成与Agent新纪元

作者|陆莫斯

封面图源|AI生成

想要洞察AI市场的真实发展状况,火山引擎无疑是中国最值得关注的风向标。

“截至2025年12月,豆包大模型每日的token调用量已突破50万亿,较去年同期激增超过10倍。”12月18日,在熙熙攘攘的Force大会现场,火山引擎总裁谭待宣布了这一里程碑数据。

火山引擎Force大会2025:AI视频生成与Agent新纪元 火山引擎 豆包大模型 AI视频生成 Agent 第1张

相比之下,2025年年初这一数字只有16.4万亿 图片来源:火山引擎

模型即服务(MaaS)是衡量大模型消耗的最直观指标。在这一细分赛道上,火山引擎目前已经占据国内市场份额首位,在全球也跻身前三。

2025年中期,云厂商竞逐“AI云第一”的战火尚未熄灭,年底各大巨头又纷纷推出新版本——谷歌的旗舰模型Gemini 3与视频模型Veo 3.1震撼亮相,OpenAI的GPT-5.2也紧随其后。在国内,阿里、腾讯等科技巨头同样密集发布了各自的大模型更新。

若要用关键词概括2025年的AI市场,多模态与Agent无疑位居前列。

本次Force大会上,火山引擎的发布重点同样聚焦于这两大方向:

模型层面:推出了豆包旗舰模型1.8以及视频生成模型Seedance 1.5 pro;

围绕Agent构建的工具链与生态服务:包括企业自有模型的推理代工服务、强化学习平台;企业级AI Agent平台AgentKit;以及针对Agent运营发布的HiAgent“1+N+X”智能体工作站。

火山引擎Force大会2025:AI视频生成与Agent新纪元 火山引擎 豆包大模型 AI视频生成 Agent 第2张

火山引擎总裁谭待在大会现场

在Force大会上,火山引擎决心“将Agent进行到底”——他们亲自搭建了一个Agent,用于大会的报名、参会指引等场景。

“大家可能觉得这很容易,但实际上我们做起来也颇费周折!”谭待笑道,“当前模型能力已经足够强大,但很多企业仍难以落地,关键在于Agent的工具和生态尚处早期,企业进行Agent迭代的速度自然缓慢。”

自2020年火山引擎进军云市场,至今已五年。当时它还被视为云市场的“新兵”,如今,火山已借助大模型的东风,成长为AI领域不可小觑的力量——2024年,其营收规模突破110亿元,增速远超60%;2025年,这一数字预计将超过200亿元。

火山引擎Force大会2025:AI视频生成与Agent新纪元 火山引擎 豆包大模型 AI视频生成 Agent 第3张

参数不再是焦点,模型已进化为成熟消费品

2025年,视频模型市场的竞争异常激烈,持续了一整年。

与去年相比,最大的不同在于:厂商们不再仅仅比拼参数和时长,视频生成赛道的竞争已跃升至全新维度——真正的分水岭,在于能否直接生成“可发布的完整作品”。

例如,近期各大AI视频厂商都在竞逐一个功能:声画同步生成。

过去,模型生成的视频片段往往只是半成品,需要大量后期剪辑、配音和口型对齐才能投入使用,制作一条AI视频往往要跨多个平台,工序复杂。

最新发布的Seedance 1.5 pro,同样将声画同步作为核心卖点,实现开箱即用。在Force大会上,谭待对Seedance 1.5 pro的参数轻描淡写,直接展示了多个Demo,涵盖电影、动画、商业广告等多种风格。

  • 提示词:一个女孩站在房间里,面向观众。她身后的大人递给她一个圣诞礼盒,当她打开盒子,一只小狗跳了出来,女孩开心地笑了,说道:“你真好!”
  • 提示词:一个蓝色头发的动漫少女站在樱花树下,樱花瓣飘落下来。她伸手接住一片花瓣,开心地转了一圈,裙子随着旋转飘起来。她笑着用英语说:“春天终于来了!”

2025年,AI视频模型领域依然保持着极快的迭代节奏。

2024年时,各家主要聚焦于解决一致性和人物动作表情的自然度问题——比如,前一帧还是史密斯吃面,下一帧就可能变成另一个人。

到2025年,以Seedance上一代版本1.0 pro为例,其主打卖点是“原生多镜头叙事”:能根据复杂剧本自动规划远景、特写、中景镜头组合,并保证主角一致性。

但如今,这些问题已不再是主要瓶颈,视频生成模型迅速逼近生产级可用水平。声音,正成为新的竞争焦点。

无独有偶,今年下半年发布的快手可灵2.6、谷歌的Veo 3.1以及阿里的WAN 2.5,都将声画同步功能作为了宣传重点。

火山引擎Force大会2025:AI视频生成与Agent新纪元 火山引擎 豆包大模型 AI视频生成 Agent 第4张

来源:小红书用户@AI哈哈镜

相比之下,Seedance 1.5 pro展现出独特优势。

首先,在口型同步方面,Seedance 1.5 pro的匹配度极高;而谷歌Veo 3.1等海外模型对中文支持不足,常常出现口型错位、配音生硬的问题。

其次,Seedance 1.5 pro生成的视频沉浸感更强——不仅口型精准,声音与人物、环境的融合度也更高。

运镜与动作张力,一直是Seedance的强项。此次Seedance 1.5 pro进一步强化了对电影级运镜和动态张力的遵循。

例如,在室外不同天气下,人物的声音会呈现出悠远感,甚至带有轻微回音。

  • 提示词:一个穿黑色风衣的男人站在雨中街头,雨水顺着脸颊流下。他缓缓抬头望向天空,用上海话低声说:“是时候做个了断了。”镜头切向对面的人,对方反问:“你要怎么做?”背景是模糊的霓虹灯和湿漉漉的街道,最后镜头转向男人身后马路对面的几个路人,他们静静观察着。
  • 提示词:一辆红色跑车在山路上飞驰,轮胎与地面摩擦冒出白烟。车辆快速过弯,车身倾斜。镜头切至驾驶座,司机紧握方向盘,眼神专注,冷哼一声,车子加速冲过终点线。

Seedance 1.5 pro生成的视频,其动作幅度、多镜头切换及多主体呈现,均明显处于行业领先水平。

实际上,要实现声画同步,不仅需要海量训练数据,还需在训练架构和路线选择上进行诸多调整。

过去,视频生成大多基于传统T2V模型,先产出视频画面,结果就是“无声视频”,用户需自行后期配音、配乐、对口型,耗时费力。

对于追求创作效率的C端用户,以及看重成本与稳定性的B端客户,声画同步无疑具有巨大商业价值。

模型训练架构的改进,也显著提升了商业化落地效率。例如,通过多阶段蒸馏、量化等工程优化,Seedance 1.5 pro的端到端推理速度提升了10倍以上,大幅降低了生成成本。

火山引擎智能算法负责人吴迪曾在采访中指出,在模型训练目标设定之初,火山就重点关注了B端核心场景的需求,“音画同步”正是客户的刚需之一。

可以说,随着一致性、运镜、叙事、声音等要素逐步成熟,AI视频生成的拼图已趋于完整。

这背后也映射出整个创作生态的日益成熟。

从Seedance 1.5 pro的发布宣传即可见一斑——在小红书上,字节旗下的AI视频Agent小云雀、即梦等,主推1.5 pro时,选用的AI视频素材多为包含复杂动作的短视频、有剧情有故事,充满强烈的抖音风格。

火山引擎Force大会2025:AI视频生成与Agent新纪元 火山引擎 豆包大模型 AI视频生成 Agent 第5张

小红书上的二次创作与趣味视频示例

视频的趣味性很大程度上决定了其传播潜力。Seedance 1.5 pro对方言、对白及强表演场景的强大支持,使其天然适合在豆包、即梦等C端产品中生成可供二次创作和分享的社交货币——例如方言类“整活”视频,正成为AI视频模型撬动用户的有效路径。

作为短视频巨头,字节跳动对内容有着深刻理解——深知什么内容能火、为何能火。这些洞察最终都融入了模型的训练目标。

信号已然明确:随着视频生成模型的逐步成熟,这些AI生成的视频将很快与豆包、即梦、小云雀等C端产品深度联动,为用户提供可供二次创作和分享的社交货币。

当模型能够理解并生成复杂的长镜头、希区柯克变焦等电影术语,还能精准复刻川话、粤语、沪语等小众方言,成为随手可用的创作工具时,它就不再仅仅是技术工具,而是具备了演变为社交平台的潜力。

火山引擎Force大会2025:AI视频生成与Agent新纪元 火山引擎 豆包大模型 AI视频生成 Agent 第6张

大模型竞争已演变为系统工程对决,火山却在模型层面做减法

火山引擎的快速崛起,正是当前AI应用爆发的缩影。

据“智能涌现”了解,与2025年末相比,到2030年豆包大模型的Token调用量预计将增长约100倍。

然而,大模型领域仍处于非常早期阶段。火山智能算法负责人吴迪在会后采访中透露:国内大约10%-20%的头部企业消耗了超过90%的Token,大模型服务的渗透率依然较低。

“这个领域的头部效应依然十分显著。”他指出。

拥有好模型并不足以服务好客户。然而,火山引擎如今的思路恰恰是做减法。

豆包大模型1.8做了一个许多厂商不敢尝试的决定:将所有模型能力整合进单一模型。

具体来说,客户只需面对一个API接口,无论是LLM、VLM还是Thinking版本,全部集成一体,无需版本选择,不必纠结模型能力差异,也不用在多个模型间切换。

这与主流做法大相径庭。大多数模型厂商习惯于提供不同版本,如语言、视觉理解、思考模型等,各版本对应不同能力边界。好处是职责分明,但挑战在于选择成本高、集成流程复杂。

在模型上做减法,难度呈指数级上升,这需要更先进的基模——这正是火山强调的底座逻辑。

基础模型的能力直接决定了下游应用的天花板。Seedance 1.5 pro之所以能实现精细的声画同步,背后正是豆包基础模型能力的支撑。

例如,模型能精准捕捉人物情绪、理解复杂叙事意图、处理方言语音语调,这些都依赖于基模在语义理解、情感识别等维度的深厚积累。

火山引擎Force大会2025:AI视频生成与Agent新纪元 火山引擎 豆包大模型 AI视频生成 Agent 第7张

来源:火山引擎

当前的Token降价潮,迫使厂商必须把模型训练得更高效、更好用,提升MaaS服务的“密度”。

什么是密度?简言之,就是在相同成本下,模型能提供的价值更多。

通过持续的工程优化和训练策略改进,火山不断压缩推理成本,同时保持甚至提升模型性能。Seedance 1.5 pro端到端推理速度提升10倍以上,正是这种优化的直接体现。

计费模式也应契合AI应用的特点。

本次发布会上,火山推出了一个创新计费模式:“AI节省计划”。该计划覆盖所有按量后付费的大模型产品,通过阶梯式折扣,帮助企业最高节省47%的成本。

“目前行业仍按Token计费,但未来绝不会只有这一种方式。”2024年,谭待在接受“智能涌现”专访时曾表示。他认为,未来应按交付的“智能”付费,比如用AI写报告,按交付物的价值计费。

2025年,火山已开始推出按思考长度分段付费的模式,以帮助企业降低成本。

事实上,自火山成立之初,谭待就反复强调AI是火山的核心旋律。

这意味着火山的基础设施、产品架构、商业模式从诞生起就围绕AI云原生设计。对于后来者火山而言,传统公有云市场早已被先行者占据——这是客观现实。

因此,AI成为火山弯道超车的关键。

火山的AI原生体现在诸多细节:例如,GPU集群调度系统专为大模型训练优化;存储架构也充分考虑了AI训练对基础设施的极端需求。

AI基础设施的竞争,已从单纯的模型能力比拼,升级为系统工程的较量。

对于广大企业客户而言,他们面临的最大问题往往不是模型不够强,而是不知如何应用、难以落地。一个企业要真正用上大模型和Agent,必须解决数据接入、任务编排、效果评估、成本控制等一系列复杂难题。

这好比拥有一台强劲的发动机,却没有配套的传动系统、控制系统和操作界面,普通人根本无法驾驭。

火山正在同步建设模型的“大脑”和“双手”。

如果说豆包大模型是“大脑”,提供核心的理解与生成能力;那么此次重磅发布的AgentKit,就是那双“手”,旨在降低开发者的门槛。

传统Agent开发需要开发者自行处理prompt工程、工具调用、状态管理等复杂问题,开发周期长、调试困难。AgentKit将这些底层能力封装,开发者只需关注业务逻辑。

更重要的是,AgentKit不仅是开发工具,还提供完整的运营能力。从Agent的创建、测试、部署,到上线后的监控、优化,形成闭环。这对企业客户至关重要,他们需要的是可管理、可迭代的解决方案,而不仅仅是demo。

火山自身在Agent领域已积累大量实践。字节内部诸多业务场景,如客服、内容审核、数据分析等,都在使用Agent提升效率。这些实践中沉淀的能力与经验,最终通过AgentKit对外输出。

在Force大会的演示中,一个企业级电商客服Agent从零搭建到上线,整个过程不到半小时。这种效率提升,对许多企业而言是质的飞跃。

展望未来,火山在Agent方向的目标十分明确:让每个企业都能拥有自己的AI助手,就像今天每个企业都有自己的网站和APP一样。这需要的不仅是技术能力,还有完整的生态支撑。

从这个角度看,火山的雄心已然清晰:它不仅要提供模型API,更要构建完整的AI基础设施和服务体系,让所有企业都能低门槛、低成本地使用最先进的AI能力。

这场系统工程的较量,才刚刚开始。