当前位置：首页 > 科技资讯 > 正文

阿里发布Qwen3-ASR-Flash，语音识别新突破

主机测评网
科技资讯
2026-04-28
972

智东西最新报道，近日，阿里巴巴推出了最新的语音识别模型Qwen3-ASR-Flash，这款模型在Qwen3基座模型的基础上进行了优化，能够支持11种语言和多种口音的识别。用户可以通过ModelScope、HuggingFace和阿里云百炼API免费体验这一创新技术。

阿里发布Qwen3-ASR-Flash，语音识别新突破语音识别 Qwen3-ASR-Flash 多语种方言识别第1张

在自动语音识别（ASR）的多项基准测试中，Qwen3-ASR-Flash展现了出色的性能，特别是在方言、多语种、关键信息识别以及歌词识别等方面，其错误率显著低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴的Paraformer-v1以及字节的Doubao-ASR。

该模型基于海量的多模态数据和千万小时的ASR数据构建，能够识别中文、英语、法语、德语等11种语言。在识别过程中，它能自动识别语音语种，并过滤静音和背景噪声等非语音片段。

此外，用户还可以定制ASR结果。通过上传音频时添加关键信息术语和音频背景等上下文信息，识别结果就能更好地匹配这些信息。

以下是官方提供的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息，包括关键词列表和游戏背景。因此，即使解说员的语速很快，也能准确识别游戏专业术语。

阿里发布Qwen3-ASR-Flash，语音识别新突破语音识别 Qwen3-ASR-Flash 多语种方言识别第2张

ModelScope地址：https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
Hugging Face地址：https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百炼API调用地址：https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031