当前位置:首页 > 科技资讯 > 正文

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破

谷歌近日正式推出了其新一代视频生成模型Veo 3.1,该模型现已面向用户开放使用,标志着AI视频生成技术迈入新阶段。

北京时间10月16日,谷歌通过Gemini API发布了Veo 3.1及Veo 3.1 Fast的付费预览版。模型一经上线,便受到行业高度关注,主要因为与早前发布的Sora 2类似,Veo 3.1也新增了音频生成功能,提升了视频的沉浸感。

相较于上一代Veo 3,Veo 3.1的改进聚焦在三大核心领域:

第一,AI生成视频从无声迈入有声时代。 Veo 3.1不仅能够实现声音与画面的精准同步,还能根据视频内容自动匹配合适的背景音乐,增强视听体验。

第二,Veo 3.1允许用户直接设定视频的开篇和结尾画面。 这一功能使得短视频之间的过渡更加自然,并能控制视频的首尾观感。通过基于上一视频的最后一帧继续生成,Veo 3.1以叠加方式实现了“AI长视频”的创作潜力。

例如,当用户提供以下两张图片作为视频的开头和结尾时:

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第1张

来源:谷歌官网

模型会生成如下的视频片段:

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第2张

来源:谷歌官网

第三,Veo 3.1支持通过三张图片创建个性化人物角色。 当用户提供头像、服装参考和场景设定三张图片时,模型能根据提示词生成对应人物,并使其自然说出台词,实现角色定制。

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第3张

来源:谷歌官网

此次更新,Veo 3.1着重优化了AI视频的视听体验,并在视频时长有限的情况下,探索了“长视频叙事”的解决方案。

01 实测Veo 3.1三大功能:五个月内谷歌迈出“0.1步”进展

目前,普通用户可通过Gemini应用程序和Flow免费体验Veo 3.1,但使用次数有限。国内AI视频平台如Imagine.art、Fal-ai和Lovart已迅速跟进,支持模型调用。我们在Lovart上进行了快速测试。

首先,测试音画同步功能。我们输入英文提示词:“纽约雨夜街头,闪电伴随雷声而来。”生成视频中,闪电与雷声基本同步,车辆驶过水坑时声音由远及近变化。但生成时间约1分钟,视频片段仅6秒,短于Sora 2的10-20秒。此外,画面中仅车辆、雨滴和闪电动态,行人和树木静止,显得违和。

其次,测试首尾画面控制。我们提供两张猫跳上桌子的图片作为首尾帧,提示词要求展现跳跃弧线。视频前半部分自然,但猫跳到电脑后出现“魔法感”变换,结尾画面突然变亮。接着,测试第二段视频,猫趴下睡觉,生成效果较真实。拼接两段视频后,除“魔法感”突兀外,连贯性良好,实现了场景拓展。

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第4张

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第5张

最后,测试三图人设功能。我们输入人物头像、服装和场景参考图,提示词要求生成女性角色漫步场景。结果视频中人物建模感重,服装和场景与参考图差异大,AI痕迹明显,表现不佳。

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第6张

总体而言,Veo 3.1在音画同步和首尾画面稳定上表现不错,但人物设定功能未达官网宣传效果。

02 谷歌暗指优于Sora 2,但AI专家持异议

谷歌在官网中宣称,Veo 3.1在总体观感、视频对齐和视觉质量上优于Sora 2 Pro、海螺 2.0等模型。

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第7张

官网还强调,在音画一致性内部测试中,Veo 3的“视频素材”功能在“整体偏好”和“视觉质量”领先。有趣的是,谷歌暗指Sora 2 Pro不支持人像生成,因此未纳入图像转视频对比。

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第8张

但评测中谷歌模糊了Veo 3.1和Veo 3的界限,图表显示Veo 3而文字提及Veo 3.1,难以确定具体模型。尽管谷歌自评甚高,AI专家如Otherside AI创始人Matt Shumer在推特表示对Veo 3.1“失望”,认为效果逊于Sora 2且价格更高。3D艺术家Travis David指出模型未突破“8秒”定律,且用户无法自定义音频。网友也期待自动化分镜功能未上线。

03 与Sora 2 Pro竞争性价比?Veo 3.1聚焦专业AI视频创作

谷歌在博客中称Veo 3.1价格与Veo 3相同,但实则仍是市场高价模型之一。Veo 3.1 Fast版本推出,不含音频每秒$0.15,含音频每秒$0.40。

谷歌Veo 3.1视频生成模型全面评测:音频集成与专业创作新突破 Veo 3.1  AI视频生成 音画同步 谷歌AI模型 第9张

价格表下注明,音频处理问题可能导致视频生成失败,仅成功生成才收费,显示模型稳定性待提升。相比注重趣味性的Sora 2,Veo 3.1定位专业化,强调视频连贯性、音画一致和人物稳定。应用案例显示,GenAI电影工作室Promise Studios和AI内容公司Latitude已测试Veo 3.1,用于增强故事性和叙事引擎,旨在降低高质量视频创作门槛。然而,从生成效果看,五个月内谷歌在视频模型上仅前进“0.1步”。

*头图来源:谷歌官网