谷歌近日正式推出了其新一代视频生成模型Veo 3.1,该模型现已面向用户开放使用,标志着AI视频生成技术迈入新阶段。
北京时间10月16日,谷歌通过Gemini API发布了Veo 3.1及Veo 3.1 Fast的付费预览版。模型一经上线,便受到行业高度关注,主要因为与早前发布的Sora 2类似,Veo 3.1也新增了音频生成功能,提升了视频的沉浸感。
相较于上一代Veo 3,Veo 3.1的改进聚焦在三大核心领域:
第一,AI生成视频从无声迈入有声时代。 Veo 3.1不仅能够实现声音与画面的精准同步,还能根据视频内容自动匹配合适的背景音乐,增强视听体验。
第二,Veo 3.1允许用户直接设定视频的开篇和结尾画面。 这一功能使得短视频之间的过渡更加自然,并能控制视频的首尾观感。通过基于上一视频的最后一帧继续生成,Veo 3.1以叠加方式实现了“AI长视频”的创作潜力。
例如,当用户提供以下两张图片作为视频的开头和结尾时:
来源:谷歌官网
模型会生成如下的视频片段:
来源:谷歌官网
第三,Veo 3.1支持通过三张图片创建个性化人物角色。 当用户提供头像、服装参考和场景设定三张图片时,模型能根据提示词生成对应人物,并使其自然说出台词,实现角色定制。
来源:谷歌官网
此次更新,Veo 3.1着重优化了AI视频的视听体验,并在视频时长有限的情况下,探索了“长视频叙事”的解决方案。
目前,普通用户可通过Gemini应用程序和Flow免费体验Veo 3.1,但使用次数有限。国内AI视频平台如Imagine.art、Fal-ai和Lovart已迅速跟进,支持模型调用。我们在Lovart上进行了快速测试。
首先,测试音画同步功能。我们输入英文提示词:“纽约雨夜街头,闪电伴随雷声而来。”生成视频中,闪电与雷声基本同步,车辆驶过水坑时声音由远及近变化。但生成时间约1分钟,视频片段仅6秒,短于Sora 2的10-20秒。此外,画面中仅车辆、雨滴和闪电动态,行人和树木静止,显得违和。
其次,测试首尾画面控制。我们提供两张猫跳上桌子的图片作为首尾帧,提示词要求展现跳跃弧线。视频前半部分自然,但猫跳到电脑后出现“魔法感”变换,结尾画面突然变亮。接着,测试第二段视频,猫趴下睡觉,生成效果较真实。拼接两段视频后,除“魔法感”突兀外,连贯性良好,实现了场景拓展。
最后,测试三图人设功能。我们输入人物头像、服装和场景参考图,提示词要求生成女性角色漫步场景。结果视频中人物建模感重,服装和场景与参考图差异大,AI痕迹明显,表现不佳。
总体而言,Veo 3.1在音画同步和首尾画面稳定上表现不错,但人物设定功能未达官网宣传效果。
谷歌在官网中宣称,Veo 3.1在总体观感、视频对齐和视觉质量上优于Sora 2 Pro、海螺 2.0等模型。
官网还强调,在音画一致性内部测试中,Veo 3的“视频素材”功能在“整体偏好”和“视觉质量”领先。有趣的是,谷歌暗指Sora 2 Pro不支持人像生成,因此未纳入图像转视频对比。
但评测中谷歌模糊了Veo 3.1和Veo 3的界限,图表显示Veo 3而文字提及Veo 3.1,难以确定具体模型。尽管谷歌自评甚高,AI专家如Otherside AI创始人Matt Shumer在推特表示对Veo 3.1“失望”,认为效果逊于Sora 2且价格更高。3D艺术家Travis David指出模型未突破“8秒”定律,且用户无法自定义音频。网友也期待自动化分镜功能未上线。
谷歌在博客中称Veo 3.1价格与Veo 3相同,但实则仍是市场高价模型之一。Veo 3.1 Fast版本推出,不含音频每秒$0.15,含音频每秒$0.40。
价格表下注明,音频处理问题可能导致视频生成失败,仅成功生成才收费,显示模型稳定性待提升。相比注重趣味性的Sora 2,Veo 3.1定位专业化,强调视频连贯性、音画一致和人物稳定。应用案例显示,GenAI电影工作室Promise Studios和AI内容公司Latitude已测试Veo 3.1,用于增强故事性和叙事引擎,旨在降低高质量视频创作门槛。然而,从生成效果看,五个月内谷歌在视频模型上仅前进“0.1步”。
*头图来源:谷歌官网
本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116455.html