当前位置:首页 > 科技资讯 > 正文

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型

在全球AI界屏息期待GPT-5.3与Gemini 3.5之际,阿里巴巴率先打破沉寂,在模型发布赛道上实现“超车”!

1月26日深夜,阿里正式揭晓了其千问系列的旗舰力作——Qwen3-Max-Thinking。作为阿里目前推理能力最顶尖的旗舰级模型,它在19项权威基准测评中表现亮眼,与GPT-5.2-Thinking、Claude-Opus-4.5及Gemini 3 Pro等国际顶尖模型展开了正面交锋。在结合测试时扩展(TTS)技术后,Qwen3-Max-Thinking在多项测试中均刷新了SOTA(行业最高水平)纪录。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第1张

▲Qwen3-Max-Thinking基准测试数据概览

Qwen3-Max-Thinking的核心优势在哪里?首先,它实现了革命性的自适应工具调用功能。模型能够根据任务需求自动决策是否调用搜索引擎或代码解释器,完全免除了用户手动切换工具的繁琐操作。基于对该能力的绝对自信,通义千问直接在对话界面移除了显性的搜索开关标识。

此外,该模型深度集成了阿里自研的测试时扩展算法。与行业内普遍采用的“增加并行推理分支”策略不同,Qwen3-Max-Thinking选择将算力精准投放至更具深度的逻辑推理路径。这种方式不仅让模型的推导过程更加精准、高效,还赋予了它极强的“自我反思”能力。

回顾去年9月,阿里曾发布过Qwen3-Max的预览版。相较而言,正式版完美解决了思考模式与常规模式的融合难题。该模型支持256k的超长上下文窗口,虽然具体参数量未正式对外披露,但预计与预览版持平,即规模突破1万亿参数。

在开源策略上,Qwen3-Max-Thinking被定位为非开源旗舰模型。目前用户可通过Qwen Chat官网直接体验其强大的自适应工具能力。同时,API服务也已同步开启,定价策略极具市场竞争力:每百万输入tokens仅需2.5元,每百万输出tokens为10元。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第2张

▲Qwen3-Max-Thinking API调用配置界面

值得关注的是,阿里同日还开源了Qwen3-TTS全系列语音合成模型,该系列支持高精度音色克隆、拟人化语音生成及基于描述词的控制,进一步完善了多模态生态。

体验入口:

https://chat.qwen.ai/

API集成平台:

https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

01.

实测对比:自适应搜索能力超越ChatGPT,工具协同更智能

Qwen3-Max-Thinking发布后,我们第一时间进行了深度评测。

重点测试了其自适应工具调用能力。这项能力源于阿里创新的训练方案:模型在完成基础微调后,通过多样化任务的反馈迭代,学会了精准判断何时介入外部工具。

目前,主流模型如DeepSeek和ChatGPT虽然也支持主动搜索,但Qwen3-Max-Thinking的灵活性更胜一筹。例如在询问实时气象信息时,它能迅速反馈准确数据。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第3张

在面对一些非显性时效性问题时,Qwen3-Max-Thinking展现出了极高的“自觉性”。当我们提问较为生僻的术语“Clawdbot”时,模型在意识到知识储备不足后,自动启动搜索并提供了详尽的背景介绍。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第4张

相比之下,ChatGPT在处理此类问题时显得较为保守,往往会直接否定自己知识库之外的信息,缺乏主动核验的机制。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第5张

在编程能力方面,当我们要求模型“模拟千次掷硬币实验并验证大数定律”时,Qwen3-Max-Thinking流畅地调用了代码解释器,编写并执行了高质量的Python代码。虽然生成的图表风格稳重,但数据逻辑与准确度无懈可击。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第6张

进一步挑战其工具协同能力,我们要求它追踪英伟达与AMD自2026年以来的股价走势并制图。实测显示,Qwen3-Max-Thinking在搜索数据时表现出了极强的探索欲,尽管由于信源分散导致过程略显曲折,但最终依然交付了具备分析价值的结果。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第7张

最终生成的图表清晰地展示了股价趋势,其结合市场研报的综合分析也体现了深度思考的优势。

02.

新型推理引擎:迭代式自我反思,编程审美大幅进阶

Qwen3-Max-Thinking的技术精髓在于其“经验累积式”的推理策略。

通过限制冗余的并行路径,模型将算力倾斜至“经验提取”驱动的迭代思考。这意味着模型能够从先前的推理步骤中总结经验,避免陷入循环逻辑,从而在相同资源消耗下,使GPQA、HLE等高难度推理测试的得分提升了2-4分。

我们再次测试了经典的“种群演化模拟”任务。与此前的预览版相比,Qwen3-Max-Thinking在默认情况下更倾向于利用代码解释器生成专业的数据图表,而非简单的网页展示。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第8张

在指定生成网页交互界面后,新模型交付的作品在视觉UI与功能复杂度上均有显著进步。由于模型在推理过程中对物理规则和交互逻辑进行了深度预判,最终产出的模拟器更加完善。

Qwen3-Max-Thinking网页生成效果:

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第9张

Qwen3-Max-Preview(预览版)历史生成效果:

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第10张

值得注意的是,为了提升交互效率,Qwen3-Max目前对完整的思维链(CoT)进行了折叠隐藏,转而提供精简的思维总结。虽然这在开发者圈内引发了讨论,但不可否认其输出的直观性得到了提升。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第11张

此外,社交平台上的实测显示,该模型已具备识别并规避“逻辑陷阱”的能力。在分析开源模型家族数据时,它能准确识破带有引导性的错误前提,坚持基于事实的严谨输出。

阿里Qwen3-Max-Thinking震撼发布:引领自适应推理新范式,性能比肩GPT顶级模型 Qwen3-Max-Thinking  阿里通义千问 自适应工具调用 推理模型测评 第12张

▲Qwen3-Max-Thinking精准破解逻辑陷阱(来源:Max for AI)

03.

结语:资源约束下的精耕细作,中国AI的高效突围之路

阿里千问负责人林俊旸近期曾指出,算力资源依然是国内AI研究的核心瓶颈。在业务需求与科研探索的平衡中,如何“以小博大”成为关键。

Qwen3-Max-Thinking的演进轨迹清晰地展示了阿里的答案:不单纯依赖参数规模的堆叠,而是通过工程优化与算法创新,提升单位token的“含金量”。

这种“效率优先、精细推理”的发展模式,正在成为中国大模型在资源受限环境下实现全球领跑的一条重要路径。