当前位置:首页 > 科技资讯 > 正文

阿里通义大模型深夜三连发:全模态、语音与图像能力全面突破

据智东西9月23日晚间报道,阿里通义大模型团队在深夜连续推出三项重大更新,包括:开源原生全模态大模型Qwen3-Omni、新一代语音生成模型Qwen3-TTS,以及图像编辑模型Qwen-Image-Edit-2509的迭代版本

Qwen3-Omni能够无缝集成并处理文本、图像、音频及视频等多种输入格式,并以实时流式响应的方式同步生成文本与自然语音输出。该模型在36项音频与音视频基准测试中,一举夺得32项开源领域最佳成绩以及22项总体最优表现,性能上超越了Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强大模型,同时在图像与文本能力上,也在同规模模型中达到了领先水平。

Qwen3-TTS具备17种音色与10种语言的支持能力,在语音稳定性与音色相似度评估中,表现优于SeedTTS、GPT-4o-Audio-Preview等主流产品。

Qwen-Image-Edit-2509本次的核心升级是加入了多图编辑功能,能够智能拼接不同图片中的元素,例如人物与人物、人物与物体等组合。

阿里通义大模型深夜三连发:全模态、语音与图像能力全面突破 多模态大模型 语音生成 图像编辑 开源AI 第1张

阿里开源项目主页

阿里此次开源了三个版本:Qwen3-Omni-30B-A3B-Instruct(指令跟随型)、Qwen3-Omni-30B-A3B-Thinking(推理型)以及通用音频字幕生成器Qwen3-Omni-30B-A3B-Captioner。

Hugging Face开源地址:

https://huggingface.co/Qwen

GitHub开源地址:

https://github.com/QwenLM/Qwen3-Omni

01.

支持119种语言交互

能随意定制、修改人设

在通义千问国际版网站上,用户只需点击输入框右下角图标,即可启动视频通话功能。目前该功能仍处于Beta测试阶段。

在实际测试中,网页端的视频交互体验尚有一定波动,因此转而使用通义千问国际版App进行深度体验。在App内,Qwen-Omni-Flash的视频响应延迟极低,几乎达到无感知程度,接近真人面对面交流的流畅感。

Qwen-Omni-Flash拥有广泛的世界知识储备,通过识别啤酒品牌、植物种类等画面进行验证,模型均能提供准确回答。

官方博客指出,Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言,在延迟方面,纯模型端到端音频对话延迟可低至211毫秒,视频对话延迟可低至507毫秒,还能支持长达30分钟的音频内容理解。但在实际使用中,当模型输出英语、西班牙语等外语时,仍可察觉其发音带有一定的普通话语调特征,在地道性上尚有提升空间

而在粤语交互场景下,Qwen-Omni-Flash偶尔会夹杂普通话词汇,对对话的沉浸感造成些许影响。

官方演示展示了西班牙语、法语、日语等多种语言的交互效果。

该模型可以解析意大利餐厅的菜单,并用法语为朋友推荐意大利面,其回复提及经典意面款式,并结合菜单说明进行了简要介绍。

Qwen3-Omni还能浏览网站内容,为用户总结这是巴塞罗那毕加索博物馆的官方网站,提及五座建筑及相关街道的历史背景等信息。

在日语交流场景中,模型能够分析视频中人物所处的环境以及他们对话的内容。

Qwen3-Omni支持通过system prompt自由定制,可以灵活修改回复风格、人物设定等。

演示中,模型扮演了一位广东幼儿园老师的角色,利用模型特点总结图向小朋友讲解Qwen3-Omni,涵盖了图片中模型的四个特性,并运用了更易于儿童理解的比喻方式。

在多人交互场景中,Qwen3-Omni也能分析人物的性别、说话语气及内容等

例如,在包含说四川话的女生邀请朋友、说普通话的男生倾诉失恋以及另一位男生提及丢狗事件的多方对话中,当被问及女生所说方言及内容时,Qwen3-Omni准确识别出四川话,并总结了自我介绍、发出邀请和赞美家乡等要点。

让模型分析视频中谁最开心时,Qwen3-Omni认为是最后发言的小王,重点解读了他的语气和竖大拇指的动作。

此外,Qwen3-Omni还支持分析音乐风格与元素,并对视频画面进行推理。例如,当识别出用户正在解答数学题时,它还能进一步提供该题目的解答。

02.

22项测试达SOTA

预训练不降智

Qwen3-Omni在全方位性能评估中,其单模态任务表现与同等参数规模的Qwen系列单模态模型保持相当,在音频任务中表现更为突出。

该模型在36项音视频基准测试中,有32项取得了开源领域最佳性能,22项达到了行业领先的SOTA水平,整体性能超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源模型,在语音识别与指令跟随任务上已与Gemini-2.5-Pro持平。

阿里通义大模型深夜三连发:全模态、语音与图像能力全面突破 多模态大模型 语音生成 图像编辑 开源AI 第2张

阿里通义大模型深夜三连发:全模态、语音与图像能力全面突破 多模态大模型 语音生成 图像编辑 开源AI 第3张

其博客透露,Qwen3-Omni采用了Thinker-Talker架构,其中Thinker负责文本生成,Talker则专注于流式语音Token的生成,直接接收来自Thinker的高层语义表征。

为实现超低延迟的流式生成,Talker通过自回归方式预测多码本序列:在每一步解码中,MTP模块输出当前帧的残差码本,随后Code2Wav合成对应波形,从而实现逐帧流式生成。

该创新架构的设计要点包括:音频编码器采用了基于2000万小时音频数据训练的AuT模型,具备通用音频表征能力;Thinker与Talker均采用MoE架构,支持高并发与快速推理。

同时,研究团队在文本预训练早期混合了单模态与跨模态数据,确保了各模态混合训练后的性能相比纯单模态训练没有下降,同时显著增强了跨模态能力。

AuT、Thinker、Talker+Code2wav实现了全流程全流式处理,支持首帧Token直接流式解码为音频输出。

此外,Qwen3-Omni还支持function call功能,可实现与外部工具或服务的高效集成。

03.

发布文本转语音模型

多项基准测试达SOTA

阿里通义同时发布了文本转语音模型Qwen3-TTS-Flash

其主要特点涵盖:

中英稳定性:Qwen3-TTS-Flash在seed-tts-eval测试集上,其中英文稳定性取得了SOTA表现,超越了SeedTTS、MiniMax、GPT-4o-Audio-Preview;

多语言稳定性和音色相似度方面,Qwen3-TTS-Flash在MiniMax TTS multilingual测试集上,中文、英文、意大利语、法语的词错误率(WER)达到SOTA,显著低于MiniMax、ElevenLabs、GPT-4o-Audio-Preview,而英文、意大利语、法语的说话人相似度也明显超越上述模型。

高表现力:Qwen3-TTS-Flash具备高表现力的拟人音色,能够稳定、可靠地输出高度遵循输入文本的音频。

丰富的音色和语种:Qwen3-TTS-Flash提供17种音色选择,每种音色均支持10种语言。

多方言支持:Qwen3-TTS-Flash支持方言生成,包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话。

语气适应:经过海量数据训练,Qwen3-TTS-Flash能够根据输入文本自动调节语气。

高鲁棒性:Qwen3-TTS-Flash能够自动处理复杂文本,抽取关键信息,对复杂和多样化的文本格式具有很强的适应能力。

快速生成:Qwen3-TTS-Flash具有极低的首包延迟,单并发下首包模型延迟可低至97毫秒。

在具体性能方面,在MiniMax TTS multilingual测试集上,Qwen3-TTS-Flash在中文、英文、意大利语和法语的词错误率(WER)均达到了SOTA,显著低于MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在说话人相似度方面,Qwen3-TTS-Flash在英文、意大利语和法语上均超过了上述模型,在多语言的语音稳定性和音色相似度上展现出卓越性能。

阿里通义大模型深夜三连发:全模态、语音与图像能力全面突破 多模态大模型 语音生成 图像编辑 开源AI 第4张

研究团队引入了多项架构升级和加速策略,使得模型实现了更低的首包延迟和更快的生成速度。

阿里通义大模型深夜三连发:全模态、语音与图像能力全面突破 多模态大模型 语音生成 图像编辑 开源AI 第5张

04.

图像编辑模型更新

支持多图编辑

阿里此次还推出了图像编辑模型Qwen-Image-Edit-2509的月度迭代版本

相比于8月发布的Qwen-Image-Edit,Qwen-Image-Edit-2509的主要新特性包括:

多图编辑支持:对于多图输入,Qwen-Image-Edit-2509基于原有结构,通过拼接方式进行进一步训练,从而支持“人物+人物”、“人物+商品”、“人物+场景”等多种创意玩法。

阿里通义大模型深夜三连发:全模态、语音与图像能力全面突破 多模态大模型 语音生成 图像编辑 开源AI 第6张

单图一致性增强:对于单图输入,Qwen-Image-Edit-2509在一致性方面有所提升,主要体现在:人物编辑一致性增强,包括强化人脸ID保持能力,支持各种形象照片和姿势变换;商品编辑一致性增强,包括提升商品ID保持效果,支持商品海报编辑;文字编辑一致性增强,除了支持修改文字内容外,还支持多种文字的字体、色彩、材质编辑。

原生支持ControlNet,包括深度图、边缘图、关键点图等控制方式。

阿里通义大模型深夜三连发:全模态、语音与图像能力全面突破 多模态大模型 语音生成 图像编辑 开源AI 第7张

05.

结语:多模态赛道发力!

阿里通义家族模型加速扩员

此次三大模型的新进展进一步强化了通义在多模态生成领域的竞争力。其中,Qwen3-TTS-Flash在多说话人能力、多语言支持、多方言适配以及文本处理鲁棒性等方面实现了显著突破,并与Qwen3-Omni结合,推动了大模型语音表现的整体升级。

阿里通义大模型团队在博客中表示,未来将继续沿多个技术方向推进Qwen3-Omni的升级,包括多说话人语音识别、视频光学字符识别、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持。

阿里在多模态大模型领域持续深耕,且部分性能已全面超越竞争对手,未来有望在更多实际应用场景中加速落地与推广。