当前位置:首页 > 科技资讯 > 正文

Bind-Your-Avatar:多角色音画同步视频生成新突破

【导读】Bind-Your-Avatar是一款创新的框架,它运用扩散Transformer(MM-DiT)技术,通过精细的嵌入路由将声音与角色紧密结合,实现了精准的音画同步,并支持动态背景的生成。此外,该框架引入了首个针对多角色对话视频生成的数据集MTCC和基准测试,实验结果显示其在身份保持和音画同步方面优于现有方法。

近年来,随着视频生成基础模型的兴起,音频驱动的说话人视频生成领域取得了显著进展。

然而,现有方法主要集中在单角色场景,而能够生成两个角色对话视频的方法也仅能实现两个分离的说话人视频。

针对这一挑战,研究人员推出了首个专注于同场景多角色说话视频生成的框架——Bind-Your-Avatar。

该模型基于扩散Transformer(MM-DiT),通过细粒度的嵌入路由机制,将「谁在说」与「说什么」紧密结合,从而实现对音频–角色对应关系的精确控制。

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第1张

论文地址:https://arxiv.org/abs/2506.19833

项目地址:https://yubo-shankui.github.io/bind-your-avatar

研究人员同时构建了首个针对多角色对话视频生成的完整数据集(MTCC)和评测基准,提供了从原始数据到处理完成数据的端到端流程。

大量实验表明,Bind-Your-Avatar在多角色场景下的表现优异,在人脸身份保持和音画同步等指标上均显著优于现有基线方法。

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第2张

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第3张

Bind-Your-Avatar

方法概览

Bind-Your-Avatar基于多模态文本到视频扩散Transformer(MM-DiT)构建,输入包括文本提示、多路语音音频流、多个角色的人脸参考图像,以及(可选)用于背景绘制的inpainting帧。

文本、音频和人脸身份特征通过特征编码器提取,并由嵌入路由引导的交叉注意力机制,将人脸和音频信息有选择地注入到视觉Token中,实现音画同步的关联。

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第4张

模型训练分为三个阶段:第一阶段仅生成带补全帧的静音角色运动视频(不使用音频);第二阶段加入单角色语音输入学习音频驱动的精细角色运动(通过LoRA轻量化微调);第三阶段引入多角色语音输入并联合训练嵌入路由(使用教师强制方法防止掩码退化)。

细粒度嵌入路由引导的音频–角色驱动

嵌入路由的作用输出是一个时空掩码矩阵M,用于指示每个视觉Token对应哪个角色(或背景),从而将说话人与具体语音绑定。

在训练时,研究人员设计了交叉熵损失

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第5张

监督路由输出,并结合几何先验引入时空一致性损失和层一致性损失,增强掩码的准确性和平滑性。

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第6张

论文中探讨了三种路由实现方式:预去噪(Pre-Denoise)、后去噪(Post-Denoise)以及内置去噪(Intra-Denoise)路由

Intra-Denoise路由在扩散去噪过程中动态生成细粒度3D时空掩码,实现对各角色帧级独立控制。这种设计不仅提升了音频与对应角色口型的精度,还保持了角色身份的连贯性。

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第7张

为了得到高质量的3D掩码,研究人员在路由设计中提出了两个有效的方法。其中,掩码优化策略通过引入几何先验对掩码进行正则化,提高了角色与背景区域分割的准确度和时序一致性;此外,研究人员还提出了一种掩码细化流程,将初步预测的稀疏掩码进行平滑和时间一致性校正,进一步增强掩码质量。

MTCC数据集

为了支持多角色视频生成,研究人员构建了MTCC数据集(Multi-Talking-Characters-Conversations),该数据集包含超过200小时的多角色对话视频。

数据处理流程包括:

视频清洗(筛选分辨率、时长、帧率;确保视频中恰有两个清晰角色;姿态差异度过滤等)、音频分离与同步筛选(使用AV-MossFormer和Sync-C指标确保音画一致)、语音与文本标注(应用Wav2Vec提取音频特征,QWen2-VL生成描述)以及SAM2生成角色区域掩码作为监督信号。

MTCC附带完整的开源处理代码,为社区提供了从原始视频到训练数据的端到端流水线。

实验与分析

定量分析

研究人员在MTCC测试集和全新基准集(Bind-Your-Avatar Benchmark)上与多种基线方法进行了对比,包括最近的Sonic、Hallo3和Ingredients等。这些方法原本设计用于单角色或无背景场景,对本任务进行了适配。

定量指标涵盖角色身份保持(Face Similarity)、音画同步(Sync-C、Sync-D)以及视觉质量(FID、FVD)等。

结果表明,Bind-Your-Avatar在人脸相似度音画同步度指标上均显著优于各基线(同步指标尤其优异),而在FID/FVD等视觉质量指标上也保持竞争力。

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第8张

定性分析

Bind-Your-Avatar能自然处理多角色的交叉说话场景,同时生成统一、动态的背景,无需后期拼接。

Bind-Your-Avatar:多角色音画同步视频生成新突破 Bind-Your-Avatar  多角色对话 音画同步 MM-DiT 第9张n conclusion

... (truncated for brevity) ...