当前位置：首页 > 科技资讯 > 正文

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破

主机测评网
科技资讯
2026-01-10
937

谷歌近日正式推出了其新一代视频生成模型Veo 3.1，该模型现已面向用户开放使用，标志着AI视频生成技术迈入新阶段。

北京时间10月16日，谷歌通过Gemini API发布了Veo 3.1及Veo 3.1 Fast的付费预览版。模型一经上线，便受到行业高度关注，主要因为与早前发布的Sora 2类似，Veo 3.1也新增了音频生成功能，提升了视频的沉浸感。

相较于上一代Veo 3，Veo 3.1的改进聚焦在三大核心领域：

第一，AI生成视频从无声迈入有声时代。 Veo 3.1不仅能够实现声音与画面的精准同步，还能根据视频内容自动匹配合适的背景音乐，增强视听体验。

第二，Veo 3.1允许用户直接设定视频的开篇和结尾画面。 这一功能使得短视频之间的过渡更加自然，并能控制视频的首尾观感。通过基于上一视频的最后一帧继续生成，Veo 3.1以叠加方式实现了“AI长视频”的创作潜力。

例如，当用户提供以下两张图片作为视频的开头和结尾时：

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第1张

来源：谷歌官网

模型会生成如下的视频片段：

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第2张

来源：谷歌官网

第三，Veo 3.1支持通过三张图片创建个性化人物角色。 当用户提供头像、服装参考和场景设定三张图片时，模型能根据提示词生成对应人物，并使其自然说出台词，实现角色定制。

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第3张

来源：谷歌官网

此次更新，Veo 3.1着重优化了AI视频的视听体验，并在视频时长有限的情况下，探索了“长视频叙事”的解决方案。

01 实测Veo 3.1三大功能：五个月内谷歌迈出“0.1步”进展

目前，普通用户可通过Gemini应用程序和Flow免费体验Veo 3.1，但使用次数有限。国内AI视频平台如Imagine.art、Fal-ai和Lovart已迅速跟进，支持模型调用。我们在Lovart上进行了快速测试。

首先，测试音画同步功能。我们输入英文提示词：“纽约雨夜街头，闪电伴随雷声而来。”生成视频中，闪电与雷声基本同步，车辆驶过水坑时声音由远及近变化。但生成时间约1分钟，视频片段仅6秒，短于Sora 2的10-20秒。此外，画面中仅车辆、雨滴和闪电动态，行人和树木静止，显得违和。

其次，测试首尾画面控制。我们提供两张猫跳上桌子的图片作为首尾帧，提示词要求展现跳跃弧线。视频前半部分自然，但猫跳到电脑后出现“魔法感”变换，结尾画面突然变亮。接着，测试第二段视频，猫趴下睡觉，生成效果较真实。拼接两段视频后，除“魔法感”突兀外，连贯性良好，实现了场景拓展。

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第4张

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第5张

最后，测试三图人设功能。我们输入人物头像、服装和场景参考图，提示词要求生成女性角色漫步场景。结果视频中人物建模感重，服装和场景与参考图差异大，AI痕迹明显，表现不佳。

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第6张

总体而言，Veo 3.1在音画同步和首尾画面稳定上表现不错，但人物设定功能未达官网宣传效果。

02 谷歌暗指优于Sora 2，但AI专家持异议

谷歌在官网中宣称，Veo 3.1在总体观感、视频对齐和视觉质量上优于Sora 2 Pro、海螺 2.0等模型。

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第7张

官网还强调，在音画一致性内部测试中，Veo 3的“视频素材”功能在“整体偏好”和“视觉质量”领先。有趣的是，谷歌暗指Sora 2 Pro不支持人像生成，因此未纳入图像转视频对比。

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第8张

但评测中谷歌模糊了Veo 3.1和Veo 3的界限，图表显示Veo 3而文字提及Veo 3.1，难以确定具体模型。尽管谷歌自评甚高，AI专家如Otherside AI创始人Matt Shumer在推特表示对Veo 3.1“失望”，认为效果逊于Sora 2且价格更高。3D艺术家Travis David指出模型未突破“8秒”定律，且用户无法自定义音频。网友也期待自动化分镜功能未上线。

03 与Sora 2 Pro竞争性价比？Veo 3.1聚焦专业AI视频创作

谷歌在博客中称Veo 3.1价格与Veo 3相同，但实则仍是市场高价模型之一。Veo 3.1 Fast版本推出，不含音频每秒$0.15，含音频每秒$0.40。

谷歌Veo 3.1视频生成模型全面评测：音频集成与专业创作新突破 Veo 3.1 AI视频生成音画同步谷歌AI模型第9张

价格表下注明，音频处理问题可能导致视频生成失败，仅成功生成才收费，显示模型稳定性待提升。相比注重趣味性的Sora 2，Veo 3.1定位专业化，强调视频连贯性、音画一致和人物稳定。应用案例显示，GenAI电影工作室Promise Studios和AI内容公司Latitude已测试Veo 3.1，用于增强故事性和叙事引擎，旨在降低高质量视频创作门槛。然而，从生成效果看，五个月内谷歌在视频模型上仅前进“0.1步”。

*头图来源：谷歌官网