过去一年,视频生成模型几乎每周都有新突破,不断刷新性能记录。然而,今年的节奏发生了变化,大多数主流模型已经能够生成相当惊人的10–15秒带同步音轨的视频,尽管进步显著,但也不再令人眼前一亮。
在A16Z合伙人贾斯汀·摩尔看来,我们正步入视频模型的“产品时代”。模型进步不再单纯体现在参数或基准分数上,而是其多样性和专业化。例如,不同模型在特定能力上各展所长:物理模拟、卡通风格、多镜头剪辑等。
与此同时,模型本身的价值正转向“围绕模型”的产品构建。那些能简化创作流程、抽象出复杂操作的工具,变得比模型本身更有价值。
今天,我们将跟随贾斯汀·摩尔一起探索视频模型在过去一年的变化。
过去几年,各大实验室不断发布性能更强的新版本,刷新各种测试榜单。人们逐渐认为会出现一个“神级模型”,在所有视频生成任务中表现最出色。然而,上个月发布的Sora 2在测试中甚至不如Veo 3,这打破了这一假设。
大语言模型也走过类似路径。2023到2025年,主流模型性能持续上升,之后逐渐趋于稳定。研究机构开始关注具体场景和垂直领域,AI产品也开始快速落地。
视频模型在公开测试上的进展放缓其实可以理解。它们已在“真实感”上取得巨大进步,生成的视频已经非常逼真。再想做得更真实就难了,因为已经接近现实。
如果“更真实”不再是优势来源,我们可能会看到更多风格化、专业化的模型出现。每个模型不再追求通用,而是各有特长。资源更丰富,选择也更多。
回顾过去,2024年初,视频生成技术还很原始。现在,一切都变了。谷歌的Veo模型登上多个榜首;OpenAI用30人团队、3000万美元预算制作一部完整的AI动画长片。
虽然整体水平在变好,但模型正在变得专一,各有特长。例如:
这种“专业化”趋势也带动了整条生态链的发展。像Fal、Replicate这样的AI视频云平台,已经托管了几十种模型供用户选择。Krea这类编辑工具则提供了中心平台,让用户可以和多个模型打交道。
我常用各种视频和图像生成模型尝试定制内容。这个过程往往涉及多个工具配合使用。
要让角色在不同镜头中保持一致,就需要在每一段视频里手动调整;想延续上一个镜头的结尾画面,还得导出最后一帧作为下一段的起始条件重新生成。这些本可由模型自动处理的工作,如今仍依赖创作者手动拼接。
好消息是,有些团队已开始尝试解决这些问题。Runway发布了一套工具,让用户能修改镜头角度、生成下一个镜头等。OpenAI的Sora Storyboard也支持更细致地控制视频中每一帧的动作。
未来,我们将看到更多“小而美”的模型为特定行业或场景优化。同时,也需要更强大的“创意工具包”来打通各种模态,让视频、配音、音乐等元素的生成与编辑更顺畅。
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543442.html