智东西9月12日报道,今日凌晨,阿里通义实验室正式发布了下一代基础模型架构Qwen3-Next,并推出了基于该架构的Qwen3-Next-80B-A3B-Base模型。该模型拥有800亿个参数,仅激活30亿个参数便展现出强大的性能。
Base模型在Qwen3预训练数据的子集上训练,包含15T tokens训练数据,仅需Qwen3-32B 9.3%的GPU计算资源。针对超过32k的上下文,推理吞吐量可达到Qwen3-32B的10倍以上。 同时,阿里还开源了基于Base模型的Qwen3-Next-80B-A3B的指令模型(Instruct)和思维模型(Thinking)。这些模型支持原生262144个token上下文长度,可扩展至1010000个token。 其中,Qwen3-Next-80B-A3B-Instruct仅支持指令(非思考)模式,其输出中不生成<think></think>块;而Qwen3-Next-80B-A3B-Thinking则仅支持思考模式,默认聊天模板自动包含<think>。 指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,而思维模型则优于谷歌的闭源模型Gemini-2.5-Flash-Thinking。 新模型已在魔搭社区和Hugging Face开源,开发者也可通过Qwen Chat或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。 开发者在Qwen的X评论区称赞其新增的多Token预测(MTP)机制,认为这是最令人印象深刻的部分。 Qwen Chat地址:https:// chat.qwen.ai Hugging Face地址:https:// huggingface.co/collections/Qw en/qwen3... 总体来说,在性能方面,指令模型的表现接近阿里参数规模达235B的旗舰模型,而思维模型的表现则优于Gemini-2.5-Flash-Thinking。 其基座模型为Qwen3-Next-8...
性能卓越:指令模型接近旗舰,思维模型超越Gemini
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441229.html