当前位置：首页 > 科技资讯 > 正文

视频生成模型：从性能狂飙到产品时代

主机测评网
科技资讯
2026-05-07
1016

过去一年，视频生成模型几乎每周都有新突破，不断刷新性能记录。然而，今年的节奏发生了变化，大多数主流模型已经能够生成相当惊人的10–15秒带同步音轨的视频，尽管进步显著，但也不再令人眼前一亮。

在A16Z合伙人贾斯汀·摩尔看来，我们正步入视频模型的“产品时代”。模型进步不再单纯体现在参数或基准分数上，而是其多样性和专业化。例如，不同模型在特定能力上各展所长：物理模拟、卡通风格、多镜头剪辑等。

与此同时，模型本身的价值正转向“围绕模型”的产品构建。那些能简化创作流程、抽象出复杂操作的工具，变得比模型本身更有价值。

今天，我们将跟随贾斯汀·摩尔一起探索视频模型在过去一年的变化。

01

视频领域不存在最强模型

过去几年，各大实验室不断发布性能更强的新版本，刷新各种测试榜单。人们逐渐认为会出现一个“神级模型”，在所有视频生成任务中表现最出色。然而，上个月发布的Sora 2在测试中甚至不如Veo 3，这打破了这一假设。

大语言模型也走过类似路径。2023到2025年，主流模型性能持续上升，之后逐渐趋于稳定。研究机构开始关注具体场景和垂直领域，AI产品也开始快速落地。

视频生成模型：从性能狂飙到产品时代视频生成模型多样化专业化产品化第1张

视频模型在公开测试上的进展放缓其实可以理解。它们已在“真实感”上取得巨大进步，生成的视频已经非常逼真。再想做得更真实就难了，因为已经接近现实。

如果“更真实”不再是优势来源，我们可能会看到更多风格化、专业化的模型出现。每个模型不再追求通用，而是各有特长。资源更丰富，选择也更多。

02

视频模型价值开始分化

回顾过去，2024年初，视频生成技术还很原始。现在，一切都变了。谷歌的Veo模型登上多个榜首；OpenAI用30人团队、3000万美元预算制作一部完整的AI动画长片。

虽然整体水平在变好，但模型正在变得专一，各有特长。例如：

Veo 3：最擅长物理细节、复杂动作，音画同步也最好
Sora 2：根据一句话生成多镜头视频，适合普通用户和meme创作者
Wan：开源模型，支持风格化插件，适合定制风格
Grok：速度快、成本低，特别适合动画内容
Seedance Pro：一次生成多镜头结构
Hedra：长时间对话类视频表现最稳

这种“专业化”趋势也带动了整条生态链的发展。像Fal、Replicate这样的AI视频云平台，已经托管了几十种模型供用户选择。Krea这类编辑工具则提供了中心平台，让用户可以和多个模型打交道。

03

AI视频下一个方向是更好的产品化

我常用各种视频和图像生成模型尝试定制内容。这个过程往往涉及多个工具配合使用。

要让角色在不同镜头中保持一致，就需要在每一段视频里手动调整；想延续上一个镜头的结尾画面，还得导出最后一帧作为下一段的起始条件重新生成。这些本可由模型自动处理的工作，如今仍依赖创作者手动拼接。

好消息是，有些团队已开始尝试解决这些问题。Runway发布了一套工具，让用户能修改镜头角度、生成下一个镜头等。OpenAI的Sora Storyboard也支持更细致地控制视频中每一帧的动作。

未来，我们将看到更多“小而美”的模型为特定行业或场景优化。同时，也需要更强大的“创意工具包”来打通各种模态，让视频、配音、音乐等元素的生成与编辑更顺畅。

免费vps 性价比服务器

本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543442.html

上一篇

OpenAI的商业化棋局：算力扩张与资金缺口挑战

下一篇

菲比·盖茨与索菲娅共创AI时尚新纪元，800万美元融资助力梦想启航