【创新突破】清华大学科研团队引领科技前沿,推出革命性Dolphin模型,打破“性能提升必伴高能耗”的魔咒:该模型以仅6M的参数规模(较主流模型减半),通过创新的离散视觉编码及物理启发热扩散注意力机制,实现单次推理即可精准分离语音,速度提升超6倍,多项基准测试中刷新纪录,为智能助听器、手机等设备的语音分离技术开辟新径。
视听语音分离(Audio-Visual Speech Separation, AVSS)技术旨在模拟人类“鸡尾酒会效应”,即利用说话人的面部视觉线索(如口型变化),从复杂背景噪声或多人混合语音中精准提取目标声音。此技术在智能助听、移动通信、增强现实及人机交互等领域具有广泛应用价值。
然而,长期以来,该领域面临“性能与效率难以兼顾”的困境:高性能模型依赖庞大预训练参数和高昂计算开销,难以在资源受限的边缘设备部署;而轻量化模型则多以牺牲分离精度为代价,且依赖高延迟的迭代计算。
针对这一挑战,清华大学计算机系胡晓林副教授团队创新推出高效视听语音分离模型Dolphin。
该模型通过引入离散视觉语义表征和基于物理先验的全局-局部注意力机制,在大幅降低计算复杂度的同时,刷新多项基准数据集性能记录。
Dolphin不仅是首个将参数量压缩至6M级别(包含视觉编码器)且兼顾高质量与高性能的AVSS模型,更在GPU推理速度上实现相对于现有最优模型6倍以上的提升。
主流AVSS方法面临三大挑战:
针对上述问题,Dolphin提出一套完整解决方案,其核心架构包含以下三个关键创新点:
设计基于矢量量化的双路径离散视觉编码器DP-LipCoder(如图2所示),在轻量化前提下获取高质量视觉语义。
这是一个双路径架构,包含“重建路径”和“语义路径”。重建路径负责捕捉基础视觉线索,语义路径则引入矢量量化技术,通过预训练AV-HuBERT模型进行蒸馏,使编码器学习深度语义信息。这种设计以极低计算成本提取高判别力和抗噪性视觉特征,解决轻量化与编码语义信息冲突问题。
Dolphin摒弃多轮迭代机制,采用单轮编码器-解码器架构,设计高效全局-局部注意力(Global-Local Attention, GLA)模块(如图3所示),确保单次前向传播完成高质量分离。GLA模块核心包括:
与主流方法不同,Dolphin采用直接映射策略。传统掩码方法易引入非线性失真,而Dolphin直接回归目标语音深层表征,实验证明此策略有效提升信号还原度,在SI-SNRi指标上带来约0.5dB额外提升。
在LRS2、LRS3和VoxCeleb2三个权威基准数据集上,Dolphin展现统治级分离质量与性能优势:
随着大模型技术不断发展,视听语音分离领域追求大模型提升性能。然而这对资源受限的端上设备不可行。Dolphin打破“参数量换性能”固有思维。通过引入离散语义表征和受物理启发热扩散注意力机制,Dolphin证明轻量化模型有能力超越大模型。为未来智能眼镜、手机端侧大模型及实时会议系统等场景部署高精度语音分离技术提供新路径和理论支撑。
本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436231.html