当前位置：首页 > 科技资讯 > 正文

苹果AI新突破：VSSFlow助力无声视频配音

主机测评网
科技资讯
2026-04-12
514

在2024年的WWDC大会上，苹果公司正式推出了其人工智能平台Apple Intelligence。该平台的测试工作于2024年秋季率先在美国展开，并计划逐步扩展至更多地区。

然而，截至当前，国行版本的Apple Intelligence尚未面世。苹果官方的回应是，「Apple智能的推出时间需根据监管部门的审批情况而定。」

苹果AI新突破：VSSFlow助力无声视频配音 Apple Intelligence VSSFlow AI模型无声视频配音第1张

（图源：苹果）

近日，知名苹果资讯网站9to5Mac发文指出，苹果携手中国人民大学推出了名为VSSFlow的新型AI模型，并宣称在音频生成技术上取得了显著突破。此举不仅彰显了苹果在AI技术领域的实力，同时也似乎在为国行Apple Intelligence的推出释放积极信号，难道Apple智能真的要来了吗？

无声视频自动配音，VSSFlow能解哪些难题？

通过苹果与中国人民大学联合发布的论文及9to5Mac的相关报道，我们可以了解到，VSSFlow的主要亮点在于它打破了以往需分别生成「环境音」和「对话语音」的限制。具体来说，以往的视频生成语音模型往往将音频中的环境音和人声分开处理，而VSSFlow的优势则在于它能够一站式同步生成两者。

苹果AI新突破：VSSFlow助力无声视频配音 Apple Intelligence VSSFlow AI模型无声视频配音第2张

（图源：arXiv）

据官方介绍，VSSFlow模型通过每秒读取10帧视频画面作为线索，在随机噪声中逐步「构建」出与画面匹配的声音。这一描述看似简单，但实现起来却颇为复杂。对于一段没有声音的视频，AI无法直接「听到」任何内容，它实际上是根据视频画面来「推测」最符合环境的声音，例如判断画面中的具体场景，再匹配相应的环境音。

VSSFlow论文中提到的关键技术点——Flow-matching（流匹配），在AI领域中，模型需通过杂乱的信息推理生成最可能的声音。视频画面中隐藏着声音对应的线索，AI的任务就是在这些杂乱无章的「噪音」与目标声音之间建立连接路径，即「流」。建立「流」的关键在于对视频画面和文字脚本的准确理解。

苹果AI新突破：VSSFlow助力无声视频配音 Apple Intelligence VSSFlow AI模型无声视频配音第3张

（图源：arXiv）

至于文本生成语音的能力，早期已有诸多解决方案。例如，早期的智能手机和许多阅读App都具备TTS（文字转语音）功能，它们只需将文字直接转换为预制音频即可。然而，这种方案较为简单直接，声音听起来较为机械，长句断句也会显得很奇怪。进入AI时代后，大模型加持的文字转语音体验得到了大幅提升，真人感更为显著，无论是断句、语气还是情绪都逐渐能以假乱真。

VSSFlow的视频生成人声技术特点在于通过视频脚本和画面来生成音频，能够结合画面中人物的口型、表情等因素来匹配语音的语气、情绪、节奏等，从而生成更加真实的AI人声。

前文提到，VSSFlow能够同时为视频生成环境声和人声。根据官方描述，他们将视频信号和文本转录一起嵌入到音频生成过程中。为了实现这一效果，研究人员进行了混合数据训练。具体来说，VSSFlow模型训练时使用了无声视频配环境音、无声说话视频配文本以及纯文本转语音的数据。

简而言之，VSSFlow是一款能够同时为无声视频生成环境声和人声的音频大模型，其核心优势在于通过流匹配技术提升了生成效率和音频质量。

AI生成语音：应用有限但仍具潜力

那么，VSSFlow为视频生成环境音和人声的功能具体能应用于哪些场景呢？小雷能想到的应用场景主要包括老旧电影的音频修复、失语障碍人士的辅助音频以及影视作品配音等。毕竟，VSSFlow仍然需要依赖文字脚本来生成人声，而无法仅凭视频画面推测人声内容。

目前市场上与VSSFlow最为接近的大模型是谷歌的Deepmind V2A（视频转音频）。V2A也是根据视频画面和文字脚本来生成对应的环境音和人物对话。其技术方案是在视觉信息和听觉信息之间建立映射机制。

具体来说，视觉信息主要包含空间、色彩、形状、运动等，而听觉信息通常是音色、频率、节奏等。二者属于不同的语义范畴。通过多层次的映射机制，持续训练后，AI就能根据视频画面的信息「猜测」出应匹配的听觉特征音频。

苹果AI新突破：VSSFlow助力无声视频配音 Apple Intelligence VSSFlow AI模型无声视频配音第4张

（图源：谷歌）

然而，在小雷看来，视频生成语音技术的应用场景仍较为局限。对于普通用户而言，这项功能的作用并不十分显著。相比之下，当前流行的视频生成技术更受创作者和普通用户的欢迎。用户只需用一段话或几张图片就能快速生成高真实度的视频。

苹果AI新突破：VSSFlow助力无声视频配音 Apple Intelligence VSSFlow AI模型无声视频配音第5张

（图源：雷科技）

不过给无声视频配音的场景对大多数人来说并不常见。它更适用于影视制作行业中的某些细分领域，例如传统拟音师的工作。拟音师在录音棚里录制的许多环境声和动作声都成为了我们耳中听到的声音。

同时，VSSFlow根据脚本和画面生成人声的功能与动漫声优的配音工作非常接近。可以预见的是，音频生成技术未来将对影视行业产生巨大冲击。

苹果与国内高校合作：国行AI即将落地？

对于苹果产品而言，小雷首先想到的是无障碍功能。目前苹果设备的辅助选项中已包含实时语音功能，即用户可以在手机上打字并转换成音频。

苹果AI新突破：VSSFlow助力无声视频配音 Apple Intelligence VSSFlow AI模型无声视频配音第6张

（图源：苹果）

如果VSSFlow能够应用于这一场景，那么语言障碍人士就可以在FaceTime等视频通话中边输入文字边让AI结合视频画面生成更自然的人声。当然这项技术也可以作为苹果在AI领域的储备力量为未来的视频生成等功能或应用提供支持。

此外苹果与国内重点高校合作联合发布VSSFlow无疑是在释放愿意深耕国内市场推动国行AI落地的积极信号。在VSSFlow的论文中六位署名者来自中国人民大学的学者而三位是苹果的研究员。在这个项目中苹果的角色更接近于支持者而非主导者。

目前国行版Apple Intelligence尚未推出。按照苹果的政策国行版iPhone等设备无法使用外版Apple Intelligence而未来外版硬件产品也不能使用国行版Apple Intelligence。

展望

基本可以确定的是国行版Apple Intelligence在落地过程中苹果会与国内AI巨头达成合作。之前的传言中百度、阿里、DeepSeek等都是苹果接触过的厂商。有报道称国行Apple Intelligence采用的方案是阿里提供本地模型支持百度文心一言提供云端AI支持但由于遇到工程难题以及国行AI表现一般的原因导致其在2025年未能落地。