当前位置:首页 > 科技资讯 > 正文

清华团队突破性能能耗瓶颈:Dolphin模型引领视听语音分离新纪元

【创新突破】清华大学科研团队引领科技前沿,推出革命性Dolphin模型,打破“性能提升必伴高能耗”的魔咒:该模型以仅6M的参数规模(较主流模型减半),通过创新的离散视觉编码及物理启发热扩散注意力机制,实现单次推理即可精准分离语音,速度提升超6倍,多项基准测试中刷新纪录,为智能助听器、手机等设备的语音分离技术开辟新径。

视听语音分离(Audio-Visual Speech Separation, AVSS)技术旨在模拟人类“鸡尾酒会效应”,即利用说话人的面部视觉线索(如口型变化),从复杂背景噪声或多人混合语音中精准提取目标声音。此技术在智能助听、移动通信、增强现实及人机交互等领域具有广泛应用价值。

然而,长期以来,该领域面临“性能与效率难以兼顾”的困境:高性能模型依赖庞大预训练参数和高昂计算开销,难以在资源受限的边缘设备部署;而轻量化模型则多以牺牲分离精度为代价,且依赖高延迟的迭代计算。

针对这一挑战,清华大学计算机系胡晓林副教授团队创新推出高效视听语音分离模型Dolphin。

该模型通过引入离散视觉语义表征和基于物理先验的全局-局部注意力机制,在大幅降低计算复杂度的同时,刷新多项基准数据集性能记录。

Dolphin不仅是首个将参数量压缩至6M级别(包含视觉编码器)且兼顾高质量与高性能的AVSS模型,更在GPU推理速度上实现相对于现有最优模型6倍以上的提升。

清华团队突破性能能耗瓶颈:Dolphin模型引领视听语音分离新纪元 Dolphin模型 视听语音分离 高性能 低能耗 第1张

论文地址:https://arxiv.org/pdf/2509.23610

论文主页:https://cslikai.cn/Dolphin/

代码地址:https://github.com/JusperLee/Dolphin

主流AVSS方法面临三大挑战:

  • 视觉编码器的“路径依赖”问题。现有方法通常依赖大型视频编码器,导致视觉分支计算量巨大;而简单的轻量化替代方案则易丢失语义信息,分离效果大打折扣。
  • 迭代推理的高延迟。轻量化模型(如RTFS-Net等)采用循环迭代策略提升性能,但成倍增加推理时间和计算延迟,无法满足实时交互需求。
  • 特征建模的局限性。传统模型难以在单次前向传播中兼顾全局语境依赖和局部精细结构,处理复杂声学环境时易出现伪影或细节丢失。

清华团队突破性能能耗瓶颈:Dolphin模型引领视听语音分离新纪元 Dolphin模型 视听语音分离 高性能 低能耗 第2张

针对上述问题,Dolphin提出一套完整解决方案,其核心架构包含以下三个关键创新点:

DP-LipCoder:基于矢量量化的双路径离散视觉编码器

设计基于矢量量化的双路径离散视觉编码器DP-LipCoder(如图2所示),在轻量化前提下获取高质量视觉语义。

清华团队突破性能能耗瓶颈:Dolphin模型引领视听语音分离新纪元 Dolphin模型 视听语音分离 高性能 低能耗 第3张

这是一个双路径架构,包含“重建路径”和“语义路径”。重建路径负责捕捉基础视觉线索,语义路径则引入矢量量化技术,通过预训练AV-HuBERT模型进行蒸馏,使编码器学习深度语义信息。这种设计以极低计算成本提取高判别力和抗噪性视觉特征,解决轻量化与编码语义信息冲突问题。

GLA模块:单次迭代下的全局-局部协同建模

Dolphin摒弃多轮迭代机制,采用单轮编码器-解码器架构,设计高效全局-局部注意力(Global-Local Attention, GLA)模块(如图3所示),确保单次前向传播完成高质量分离。GLA模块核心包括:

  • 全局注意力(GA):采用粗粒度自注意力机制,在低分辨率下捕捉全局语境信息,大幅降低计算复杂度。
  • 局部注意力(LA):引入基于物理学热扩散方程的“热扩散注意力(Heat Diffusion Attention, HDA)”。利用热扩散过程平滑特性,自适应多尺度滤波特征,去除噪声干扰同时精准保留语音瞬态细节。

清华团队突破性能能耗瓶颈:Dolphin模型引领视听语音分离新纪元 Dolphin模型 视听语音分离 高性能 低能耗 第4张

直接特征回归机制

与主流方法不同,Dolphin采用直接映射策略。传统掩码方法易引入非线性失真,而Dolphin直接回归目标语音深层表征,实验证明此策略有效提升信号还原度,在SI-SNRi指标上带来约0.5dB额外提升。

实验结果与性能突破

在LRS2、LRS3和VoxCeleb2三个权威基准数据集上,Dolphin展现统治级分离质量与性能优势:

  • 分离质量领先:在LRS2数据集上,Dolphin尺度不变信噪比(SI-SNRi)达16.8 dB,优于当前最优模型IIANet(16.0 dB)和AV-Mossformer2(15.1 dB)。
  • 极高模型性能:计入视觉编码器参数,Dolphin总参数量仅6.22M,较IIANet减少50%以上;GPU推理延迟测试中,处理1秒音频仅需33.24毫秒,较IIANet快4倍以上,较RTFS-Net也快近50%;同时模型计算量(MACs)降低50%以上。
  • 高鲁棒性与优越听感:“在野”场景中表现出强鲁棒性。主观听感测试(MOS)中获3.86高分,远超对比模型2.24分,分离语音更清晰、自然且无人工痕迹。

清华团队突破性能能耗瓶颈:Dolphin模型引领视听语音分离新纪元 Dolphin模型 视听语音分离 高性能 低能耗 第5张
清华团队突破性能能耗瓶颈:Dolphin模型引领视听语音分离新纪元 Dolphin模型 视听语音分离 高性能 低能耗 第6张

总结

随着大模型技术不断发展,视听语音分离领域追求大模型提升性能。然而这对资源受限的端上设备不可行。Dolphin打破“参数量换性能”固有思维。通过引入离散语义表征和受物理启发热扩散注意力机制,Dolphin证明轻量化模型有能力超越大模型。为未来智能眼镜、手机端侧大模型及实时会议系统等场景部署高精度语音分离技术提供新路径和理论支撑。