当前位置:首页 > 科技资讯 > 正文

阿里发布Qwen3-ASR-Flash,语音识别新突破

智东西最新报道,近日,阿里巴巴推出了最新的语音识别模型Qwen3-ASR-Flash,这款模型在Qwen3基座模型的基础上进行了优化,能够支持11种语言和多种口音的识别。用户可以通过ModelScope、HuggingFace和阿里云百炼API免费体验这一创新技术。

阿里发布Qwen3-ASR-Flash,语音识别新突破 语音识别 Qwen3-ASR-Flash 多语种 方言识别 第1张

在自动语音识别(ASR)的多项基准测试中,Qwen3-ASR-Flash展现了出色的性能,特别是在方言、多语种、关键信息识别以及歌词识别等方面,其错误率显著低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴的Paraformer-v1以及字节的Doubao-ASR。

该模型基于海量的多模态数据和千万小时的ASR数据构建,能够识别中文、英语、法语、德语等11种语言。在识别过程中,它能自动识别语音语种,并过滤静音和背景噪声等非语音片段。

此外,用户还可以定制ASR结果。通过上传音频时添加关键信息术语和音频背景等上下文信息,识别结果就能更好地匹配这些信息。

以下是官方提供的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息,包括关键词列表和游戏背景。因此,即使解说员的语速很快,也能准确识别游戏专业术语。

阿里发布Qwen3-ASR-Flash,语音识别新突破 语音识别 Qwen3-ASR-Flash 多语种 方言识别 第2张

  • ModelScope地址:https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
  • Hugging Face地址:https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
  • 阿里云百炼API调用地址:https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

一、多噪音干扰与语言切换的精准识别

官方展示了5个演示示例,涵盖了多种类型的噪声、多语种的快速切换、方言和专业名词的识别挑战。

第一个示例包含了手机铃声、车铃声、音乐声、水声、雷声等多种连续噪音。即使有多人同时说话或说话间隔很短,Qwen3-ASR-Flash也能准确识别语音,不受噪声干扰。

阿里发布Qwen3-ASR-Flash,语音识别新突破 语音识别 Qwen3-ASR-Flash 多语种 方言识别 第3张

第二个示例是英文说唱。该模型在识别快速语速和连读单词方面表现出色,且不受背景音乐的干扰。

阿里发布Qwen3-ASR-Flash,语音识别新突破 语音识别 Qwen3-ASR-Flash 多语种 方言识别 第4张

二、性能卓越,支持定制化

Qwen3-ASR-Flash在中文、英文、多语言、歌词和关键信息上的识别错误率均低于其他模型。在歌词识别中,该模型支持清唱和带背景音乐的整首歌识别,研究人员实测错误率低于8%。

阿里发布Qwen3-ASR-Flash,语音识别新突破 语音识别 Qwen3-ASR-Flash 多语种 方言识别 第5张

该模型支持普通话及多种方言和口音的英语,还涵盖了法语、德语等语言。用户可以通过提供任意格式的上下文文本获得定制化的ASR结果,无需对上下文进行预处理。

三、未来展望:提升通用语音识别精度

针对复杂声学环境、多样化语音特征和专业术语等挑战,阿里研究人员增加了背景文本上传功能,使识别结果更符合用户预期。未来,他们将继续提升Qwen3-ASR-Flash的通用识别精度,降低使用门槛。