智东西最新报道,近日,阿里巴巴推出了最新的语音识别模型Qwen3-ASR-Flash,这款模型在Qwen3基座模型的基础上进行了优化,能够支持11种语言和多种口音的识别。用户可以通过ModelScope、HuggingFace和阿里云百炼API免费体验这一创新技术。
在自动语音识别(ASR)的多项基准测试中,Qwen3-ASR-Flash展现了出色的性能,特别是在方言、多语种、关键信息识别以及歌词识别等方面,其错误率显著低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴的Paraformer-v1以及字节的Doubao-ASR。
该模型基于海量的多模态数据和千万小时的ASR数据构建,能够识别中文、英语、法语、德语等11种语言。在识别过程中,它能自动识别语音语种,并过滤静音和背景噪声等非语音片段。
此外,用户还可以定制ASR结果。通过上传音频时添加关键信息术语和音频背景等上下文信息,识别结果就能更好地匹配这些信息。
以下是官方提供的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息,包括关键词列表和游戏背景。因此,即使解说员的语速很快,也能准确识别游戏专业术语。
官方展示了5个演示示例,涵盖了多种类型的噪声、多语种的快速切换、方言和专业名词的识别挑战。
第一个示例包含了手机铃声、车铃声、音乐声、水声、雷声等多种连续噪音。即使有多人同时说话或说话间隔很短,Qwen3-ASR-Flash也能准确识别语音,不受噪声干扰。
第二个示例是英文说唱。该模型在识别快速语速和连读单词方面表现出色,且不受背景音乐的干扰。
Qwen3-ASR-Flash在中文、英文、多语言、歌词和关键信息上的识别错误率均低于其他模型。在歌词识别中,该模型支持清唱和带背景音乐的整首歌识别,研究人员实测错误率低于8%。
该模型支持普通话及多种方言和口音的英语,还涵盖了法语、德语等语言。用户可以通过提供任意格式的上下文文本获得定制化的ASR结果,无需对上下文进行预处理。
针对复杂声学环境、多样化语音特征和专业术语等挑战,阿里研究人员增加了背景文本上传功能,使识别结果更符合用户预期。未来,他们将继续提升Qwen3-ASR-Flash的通用识别精度,降低使用门槛。
本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440975.html