视频大模型的竞赛仍在如火如荼地进行中。
作为国内视频生成大模型的代表,快手旗下的可灵AI近期宣布其明星产品可灵O1正式推出了“主体库”与“对比模板”两大关键功能,旨在提升AI创作的效率与作品展示效果。
然而,在大洋彼岸,OpenAI旗下的Sora2却陷入了新的困境。
根据a16z合伙人不久前发布的一组数据对比,Sora的留存率远不及TikTok,首日留存率仅为10%,30天留存率更是低至1%。相比之下,TikTok的留存率分别为50%和32%,差距显著。
在9月底OpenAI正式推出Sora 2及独立App时,众多预言家曾兴奋不已,预测“Sora App将颠覆TikTok和Instagram上的网红格局,一场由AI主导的视频革命即将来临”。
OpenAI自己也表示,我们或许正迎来视频领域的GPT-3.5时刻。
然而,到了2026年年末,现实依旧比概念更为严峻。
在这一轮AI泡沫的背后,实际上是资本市场与产业界开始冷静审视这条赛道:所谓的“视频GPT时刻”似乎并未如期而至。相反,高昂的推理成本、难以闭环的商业模式以及尚不稳定的技术表现,正在构成一道道难以逾越的“叹息之墙”。
无论是谷歌寄予厚望的Veo,还是曾惊艳全球的Sora,亦或是国内竞争激烈的可灵、即梦,此刻都站在了一个尴尬的十字路口:技术固然炫酷,但谁能真正靠它赚到大钱呢?
时间回溯到2024年。
当时,Sora凭借60秒长视频、多角度镜头切换以及惊人的物理世界模拟能力震惊全球,被科技圈定义为“视频生成元年”。
随后,Runway推出了Gen-3 Alpha,Luma AI发布了Dream Machine,谷歌则在I/O大会上推出了Veo;而在国内,字节跳动的即梦(Jimeng)、快手的可灵(Kling)、生数科技的Vidu等模型如雨后春笋般涌现。
这一年的主旋律,无疑是中美两大科技阵营在视频模型上的疯狂竞赛。这种竞赛不仅体现在发布频率上,更体现在参数规模与生成质量的军备竞赛中。
但很快,这种竞赛呈现出一种明显的“同质化内卷”趋势。现在的视频模型,大多采用了DiT(Diffusion Transformer)架构,这一架构有效地结合了Transformer处理序列数据的能力与Diffusion生成高质量图像的能力。
由于技术路径的趋同,各家比拼的焦点迅速转移到了数据质量、上下文长度以及对物理规律的理解上。
以国内战场为例,可灵AI的突围极具代表性。依托快手庞大的短视频生态,可灵在视频数据的理解上拥有天然优势,其生成的视频在运动幅度与逻辑连贯性上,一度被评测为“最接近Sora”的产品之一。而字节跳动的即梦则背靠抖音,在审美风格与运镜语言上更懂C端用户的偏好。
但问题是,作为视频模型代表的Sora,都正在陷入争议之中。前文提及的留存率问题,其实只是结果,真正的原因是号称打造AI短视频的Sora2,其用户体验却非常差。
目前的模型竞赛,更像是一场“演示片”的战争。哪怕是Sora2也同样如此。
官方放出的Demo往往是百里挑一的结果,而当普通用户使用时,人物肢体扭曲、物体凭空消失、物理逻辑崩坏(如倒出的水往天上流)等“抽卡失败”的现象比比皆是。这种“Demo与实物不符”的现状,直接导致了用户体验的断层。
目前的模型能力虽然已经从“不可用”跨越到了“偶尔惊艳”,但距离ChatGPT那样“稳定且通用”的GPT-3.5时刻,仍有巨大的鸿沟。
大家都在追求更长时长和更高分辨率,却很少有人能彻底解决“可控性”这一导演与创作者最在意的核心命题。
如果说模型能力的不足是可以通过时间解决的“软伤”,那么算力成本则是悬在所有视频AI公司头顶的“达摩克利斯之剑”。
视频生成是目前所有AI模态中,对算力消耗最为恐怖的领域。
这不仅是因为视频增加了“时间”这一维度导致数据量呈几何级数增长,更因为为了保证视频的连贯性与物理逻辑,模型需要在极短时间内进行海量的推理计算。
我们可以计算一下成本。
在文本模态下,ChatGPT生成一段文字的成本虽然不低但已经可以通过订阅费覆盖并实现盈利。然而视频生成的算力需求是文本的成百上千倍。生成一秒钟的高清视频所需的GPU算力足以生成数万字的文本或数十张高质量图片。
Sora之所以采用“切片”的方式处理视频数据正是为了在Transformer架构下尽可能地压缩计算量但即便如此其推理成本依然高得令人咋舌。
这就是“算力黑洞”。
对于谷歌、OpenAI这样的巨头来说或许还能通过烧钱来维持战略卡位利用自身的云服务设施进行内部补贴。但对于Runway、Luma以及国内众多创业公司而言每一帧视频的生成都是在燃烧真金白银。
更糟糕的是视频模型似乎还没有摸到“Scaling Law”(缩放定律)的边界或者说继续Scaling的边际收益正在递减而边际成本却在指数级上升。
为了追求更好的物理模拟效果模型参数量需要进一步扩大训练所需的高质量视频数据(如电影级素材、高帧率实拍)却比文本数据更加稀缺且版权复杂。
互联网上虽然有海量视频但大部分是低质量、高压缩、缺乏标注的“垃圾数据”清洗和标注这些数据的成本远高于文本。
技术竞赛与算力成本最终都要回归到一个终极问题:商业模式。
本文由主机测评网于2026-05-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546037.html