基于音频解混的音画同步视频生成框架MTV

主机测评网
科技资讯
2026-03-09
1008

现有音频驱动视频生成方法往往受限于音频整体性处理，导致视听对应关系不够清晰。针对此问题，北京智源人工智能研究院、北京大学、北京邮电大学联合提出一种基于解混音频的音画同步视频生成框架，通过将输入音频分解为语音、音效和音乐三类独立音轨，实现了对唇形、事件时序及整体氛围的差异化控制，验证了音频解混与多流机制在复杂视频生成任务中的有效性。

相较于文本模态，音频具备天然的连续时间结构和丰富的动态信息，能为视频生成提供更精细的时序引导。因此，随着视频生成模型的演进，音频驱动的视频生成已成为多模态生成领域的研究热点。当前研究已覆盖说话人动画、音乐驱动视频以及音画联合生成等多个场景，但在复杂视频内容中实现稳定且精确的音画对齐仍面临较大挑战。

现有方法的主要局限在于对音频信号的建模方式。多数模型将输入音频作为整体条件引入生成过程，未区分语音、音效与音乐在视觉层面承担的不同功能角色。这种处理虽在一定程度上降低了建模复杂度，却也使得音频与视觉之间的对应关系趋于模糊，难以同时满足唇形同步、事件时序对齐与整体视觉氛围调控等多重需求。

为突破这一瓶颈，北京智源人工智能研究院、北京大学、北京邮电大学共同提出了一种基于音频解混的音画同步视频生成框架，该框架首先将输入音频分离为语音、音效和音乐三路音轨，并分别驱动不同层级的视觉生成过程。借助多流时间控制网络、专用数据集及分阶段训练策略，框架能够在局部时间区间和全局层面建立更清晰的音画对应关系。实验结果表明，该方法在视频质量、音画对齐和唇形同步等指标上均获得稳定提升，验证了音频解混与多流控制技术在复杂视频生成任务中的有效性。

相关研究成果以「Audio-Sync Video Generation with Multi-Stream Temporal Control」为题，已被 NeurIPS 2025 接收。

论文地址：https://arxiv.org/abs/2506.08003

研究亮点：

* 构建由五个重叠子集组成的音频同步视频生成数据集 DEMIX，并提出多阶段训练策略以学习视听关系。

* 提出 MTV 框架，通过将音频拆分为语音、音效和音乐三类音轨，分别控制唇形运动、事件时序和整体视觉氛围，实现更精细的语义控制。

* 设计多流时间控制网络（MST-ControlNet），在同一生成框架内同时处理局部时间区间的精细同步和全局风格调节，从结构上支持不同音频成分在时间尺度上的差异化控制。

多功能生成能力

MTV 框架展现出丰富的生成能力，例如：以角色为中心的叙事、多角色互动、声音触发事件、音乐营造氛围以及相机运动控制。

DEMIX 数据集引入解混音轨标注，实现分阶段训练

基于音频解混的音画同步视频生成框架MTV 音频解混视频生成音画同步多流时间控制第1张

本文首先通过精细的过滤流程构建了 DEMIX 数据集，该数据集被组织为五个重叠的子集：基本面部、单人、多人、事件音效和环境氛围。基于这五个子集，本文引入多阶段训练策略，逐步扩展模型能力。首先使用基本面部子集训练模型学习唇形运动；接着在单人子集上学习人体姿态、场景外观和相机移动；随后在多人子集上训练模型处理多说话者复杂场景；然后利用事件音效子集将主体理解从人类扩展到物体，强化事件时序对齐；最后在环境氛围子集上训练，提升模型对视觉情绪的表达能力。

基于多流时间控制机制，实现精确的视听映射和准确的时间对齐

基于音频解混的音画同步视频生成框架MTV 音频解混视频生成音画同步多流时间控制第2张

本文明确地将音频分离为三个不同的控制轨道：语音、音效和音乐。这些解耦的轨道使 MTV 框架能够精准控制唇形动作、事件时序和视觉情绪，有效解决映射模糊问题。为兼容多样化任务，本文设计了文本描述模板：以参与者数量开头（如“两人对话”），随后列出每个人物及其外观描述，明确当前发言人，最后给出场景整体描述。为实现精确时间对齐，本文提出多流时间控制网络，通过分离的语音、音效和音乐轨道分别控制唇动、事件时序和视觉情绪。

区间特征注入

对于语音和音效特征，本文设计了区间流来精确控制唇动和事件时序，通过区间交互模块提取各音轨特征，利用自注意力机制模拟语音与音效的相互作用，最后通过交叉注意力将交互后的特征注入到对应时间区间，称为区间特征注入机制。

整体特征注入

对于音乐特征，本文设计整体流来控制整个视频片段的视觉情绪，因为音乐特征反映整体美学风格。首先通过整体上下文编码器从音乐中提取全局视觉情绪特征，并应用平均池化获得整个片段的全局表征，最后通过 AdaLN 对视频潜码进行调制，称为整体特征注入机制。

精准生成电影级音频同步视频

综合评价指标

基于音频解混的音画同步视频生成框架MTV 音频解混视频生成音画同步多流时间控制第3张

为验证多阶段训练策略的有效性，论文采用一套覆盖视频质量、时间一致性与多模态对齐能力的综合评价指标，系统性评估模型在逐步引入复杂控制信号后的稳定性与一致性，并与三种最先进方法进行对比。

在生成质量与时序稳定性方面，研究采用 FVD 评估生成视频与真实视频的分布差异，使用 Temp-C 评估相邻帧的时间连续性。结果显示，MTV 在 FVD 上显著优于现有方法，表明引入复杂音频控制并未牺牲整体生成质量，同时 Temp-C 保持较高时间稳定性。

在多模态对齐层面，研究分别通过 Text-C 和 Audio-C 衡量视频与文本、音频的一致性。其中，MTV 在 Audio-C 指标上取得明显提升，远高于对比方法，反映出音频解混与多流控制机制在强化音画对应关系方面的有效性。

针对语音驱动场景中的关键问题，论文引入 Sync-C 与 Sync-D 两项同步指标，分别评估同步置信度与误差幅度，同样取得最优表现。

对比结果

基于音频解混的音画同步视频生成框架MTV 音频解混视频生成音画同步多流时间控制第4张

如上图所示，研究人员将 MTV 框架与当前 SOTA 方法进行了对比。从视觉表现看，现有方法在处理复杂文本描述或电影级场景时普遍存在稳定性不足的问题。例如，即便利用官方代码在 8 块 NVIDIA A100 GPU 上对 MM-Diffusion 进行超过 32 万步微调，其仍难以生成具有一致叙事结构和视觉连贯性的画面，整体风格偏向局部片段拼接。TempoTokens 在面对复杂场景时，容易出现人物表情和动作不自然的问题，尤其在多人或高动态场景中生成结果的真实性受影响。在音画同步方面，Xing 等人的方法难以实现特定事件时序的音频同步，致使吉他演奏中人物手势渲染错误（如上图右侧所示）。相比之下，MTV 框架在多种场景中能够同时保持较高的视觉质量与稳定的音画同步效果，精准生成具备电影级品质的音频同步视频。

参考链接：1.https://arxiv.org/abs/2506.08003