视频生成领域的竞赛远未停歇。
作为中国视频生成模型的领军者,快手推出的可灵AI近期发布消息,其旗舰产品可灵O1新增了“主体库”和“对比模板”两项关键特性,意在提高AI内容创作的效率及成果展示的质量。
然而,远在美国,OpenAI的Sora2却遭遇了新的挑战。
a16z合伙人近期公布的一组数据显示,Sora的用户留存率远不及TikTok,首日留存仅为10%,而30日留存更是跌至1%。相比之下,TikTok的这两项数据分别为50%和32%,差距悬殊。
今年9月底,OpenAI正式推出Sora 2及其独立应用时,不少业内人士曾兴奋预测,“Sora App将颠覆TikTok和Instagram上的网红生态,一场由AI引领的视频变革即将来临。”
OpenAI自身也表示,“我们或许正站在视频领域的GPT-3.5时刻的门槛上。”
但到了2026年底,现实远比概念更为冷酷。
此轮关于AI泡沫的讨论背后,反映出资本市场和产业界正理性地审视这一赛道:所谓的“视频GPT时刻”似乎并未如期降临。相反,高昂的推理成本、难以闭环的商业模式以及尚不稳定的技术表现,正筑起一道道难以跨越的“叹息之墙”。
无论是谷歌备受期待的Veo,还是曾惊艳世界的Sora,抑或是国内激烈竞争中的可灵、即梦,如今都处于一个尴尬的十字路口:技术虽炫,但谁能真正借此盈利?
回顾2024年,Sora凭借60秒长视频、多角度镜头切换和模拟物理世界的能力震惊业界,当年被科技界称为“视频生成元年”。随后,Runway推出Gen-3 Alpha,Luma AI发布Dream Machine,谷歌在I/O大会上展示Veo;国内方面,字节跳动的即梦、快手的可灵、生数科技的Vidu等模型纷纷涌现。这一年,中美两大科技阵营在视频模型上展开疯狂竞速,不仅发布频繁,更在参数规模和生成质量上展开军备竞赛。
然而,这种竞速很快呈现出“同质化内卷”的趋势。当前多数视频模型采用DiT(Diffusion Transformer)架构,该架构结合了Transformer处理序列数据的能力与Diffusion生成高质量图像的能力。技术路径的趋同使得各家比拼焦点转向数据质量、上下文长度以及对物理规律的理解。
以国内市场为例,可灵AI的突围颇具代表性。依托快手庞大的短视频生态,可灵在视频数据理解上拥有天然优势,其生成视频在运动幅度和逻辑连贯性上,一度被评测为“最接近Sora”的产品之一。而字节跳动的即梦则背靠抖音,在审美风格和运镜语言上更贴近C端用户偏好。
但问题在于,作为视频模型代表的Sora,正陷入争议之中。前文提及的留存率只是结果,真正原因是号称打造AI短视频的Sora2,用户体验非常糟糕。
目前的模型竞速,更像是一场“演示片”的战争。即使是Sora2也不例外。官方放出的Demo往往是百里挑一的结果,而当普通用户上手时,人物肢体扭曲、物体凭空消失、物理逻辑崩坏(如倒出的水往上流)等“抽卡失败”现象比比皆是。这种“演示与实物不符”的现状,直接导致用户体验断层。
当前的模型能力,虽然已经从“不可用”跨越到“偶尔惊艳”,但距离ChatGPT那样“稳定且通用”的GPT-3.5时刻,仍有巨大鸿沟。大家都在卷时长、卷分辨率,却很少有人能彻底解决“可控性”这一导演和创作者最在意的核心命题。
如果说模型能力的不足可以通过时间弥补,那么算力成本则是悬在所有视频AI公司头顶的“达摩克利斯之剑”。视频生成是目前所有AI模态中对算力消耗最为恐怖的领域,没有之一。这不仅因为视频增加了“时间”维度,数据量呈几何级增长,更因为为保证视频连贯性和物理逻辑,模型需要在极短时间内进行海量推理计算。
我们来算一笔账:在文本模态下,ChatGPT生成一段文字的成本虽不低,但已可通过订阅费覆盖并实现盈利。然而,视频生成的算力需求是文本的成百上千倍。生成一秒钟高清视频所需的GPU算力,足以生成数万字文本或数十张高质量图片。Sora之所以采用“切片”方式处理视频数据,正是为了在Transformer架构下尽可能压缩计算量,但即便如此,其推理成本依然高得惊人。这就是“算力黑洞”。
对于谷歌、OpenAI这样的巨头,或许还能通过烧钱维持战略卡位,利用自身云服务进行内部补贴。但对于Runway、Luma以及国内众多创业公司而言,每一帧视频的生成都在燃烧真金白银。更可怕的是,视频模型似乎还未摸到“Scaling Law”的边界,或者说,继续Scaling的边际收益正在递减,而边际成本却在指数级上升。为追求更好的物理模拟效果,模型参数量需要进一步扩大,训练所需的高质量视频数据(如电影级素材、高帧率实拍)却比文本数据更稀缺且版权复杂。互联网上虽有海量视频,但大部分是低质量、高压缩、缺乏标注的“垃圾数据”,清洗和标注成本远高于文本。
用户的使用习惯也加剧了这一困境。在ChatGPT中,用户输入Query得到答案,流程是线性的。而在视频生成中,由于结果不可控,用户往往需要反复生成、反复修改,就像玩“老虎机”一样,直到摇出满意画面。这意味着,一个最终可用的视频片段背后,可能伴随着十几次甚至几十次的废片生成。这些废片消耗的算力,全部是沉没成本。
目前,无论是国内的可灵、即梦,还是国外的Sora、Veo,都在面临同一个拷问:这把火到底能烧多久?如果无法在算力成本与生成效果之间找到一个具备正向经济效益的平衡点,那么视频生成极有可能成为一个“叫好不叫座”的富人游戏。在硬件架构出现革命性突破之前,算力瓶颈将死死卡住视频AI大规模普及的咽喉。
其实说到底,技术竞速与算力成本最终都要回归到一个终极问题:商业模式。为什么ChatGPT能迅速成为杀手级应用?因为它直接解决了信息检索、代码编写、文案撰写等具有明确“生产力属性”的刚需,且交付结果相对确定。反观视频生成,目前的定位极其模糊。
在C端市场,视频AI陷入了“玩具化”的陷阱。绝大多数用户下载Sora或可灵,更多是出于猎奇心理。他们生成几个搞怪视频发朋友圈,获得社交货币后,新鲜感便迅速消退。这解释了为什么首日留存率尚可,但30天留存率会暴跌至1%。对于普通人而言,制作视频并非高频刚需,且目前AI视频生成的精细度远未达到替代拍摄的程度,更无法提供TikTok那种基于算法推荐的娱乐消费体验。指望AI生成工具去取代TikTok,在现阶段无异于痴人说梦——一个是生产工具,一个是内容消费平台,两者的底层逻辑截然不同。
在B端专业市场,视频AI同样面临着“不可控”的致命伤。对于影视制作、广告营销等专业领域,核心诉求是“精确控制”——导演需要指定角色的微表情、光影的具体走向、物体运动的精确轨迹。目前的视频大模型,虽然能生成“看起来很美”的画面,但本质上还是基于概率的“抽卡”。好莱坞大亨泰勒·佩里虽然因为看了Sora的演示而暂停了影视基地的扩建,但这更多是一种对未来的防御性恐慌,而非当下的实际替代。真正的影视工作流中,由于AI生成内容难以保持角色一致性和场景连续性,导致其目前只能充当“动态分镜脚本”或“灵感参考”,很难直接输出成品素材。
最后也是最为关键的,还是变现路径的狭窄。目前主流的商业模式依然是Sora、Runway采用的SaaS订阅制,即卖点数、卖时长。但在高昂的推理成本面前,这种订阅费往往只能勉强覆盖成本,甚至亏本赚吆喝。如果为了覆盖成本而提高定价,又会将大量中小用户拒之门外,限制了规模效应的形成。
国内市场的情况更为复杂。可灵、即梦等背靠短视频巨头,它们的算盘或许不是直接卖会员赚钱,而是将AI能力融入到自家的短视频生态中,降低创作者门槛,从而维持内容生态的繁荣,最终通过广告和电商变现。这是一种“羊毛出在猪身上”的策略。但问题在于,如果AI生成的视频内容泛滥且质量参差不齐,反而可能稀释平台的内容质量,导致用户审美疲劳。
从这个角度来看,视频AI目前正处于Gartner技术成熟度曲线的“期望膨胀期”顶峰滑落向“泡沫破裂谷底期”的阶段。虽然谷歌、OpenAI、快手、字节都在全力以赴,但视频AI距离“GPT时刻”,也就是要成为一个低门槛、高可用、全行业通用的基础设施,目前看,无论硅谷还是国内大厂,都还有很长的路要走。这不仅需要算法层面的突破来解决“可控性”难题,更需要算力成本的数量级下降,以及一个能真正能够跑通ROI的杀手级应用场景。在此之前,视频AI注定依然是一场还得继续海量烧钱的马拉松。
本文由主机测评网于2026-03-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260328326.html