当前位置：首页 > 科技资讯 > 正文

阿里Qwen3-Max-Thinking正式发布：首个对标Gemini 3的国产万亿参数推理大模型

主机测评网
科技资讯
2026-04-04
425

首款国产版Gemini 3，正式登场。

1月26日，阿里巴巴重磅发布了其通义千问系列的旗舰级推理模型——Qwen3-Max-Thinking。

根据官方披露，Qwen3-Max-Thinking拥有超过万亿的惊人参数规模，预训练数据量更是高达36T Tokens。在GPQA Diamond（科学知识）、IMO-AnswerBench（数学推理）以及LiveCodeBench（代码编程）等国际权威评测中，该模型连续刷新全球纪录。值得关注的是，它在数学推理测试AIME 25和HMMT 25上实现了国内首个“双满分”突破，并在被称为“人类最后考验”的HLE测试中斩获58.3分，显著超越了GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分。

阿里Qwen3-Max-Thinking正式发布：首个对标Gemini 3的国产万亿参数推理大模型 Qwen3-Max-Thinking 通义千问推理大模型 Test-time Scaling 阿里AI 第1张

更具深意的是发布时机。近期全球AI大厂动作频频，阿里选择在此时亮出Qwen3-Max-Thinking，其目标直指“国产首款Gemini 3”的王冠。

除了亮眼的榜单数据，它在实际场景中能否真正抗衡Gemini 3？

在代码生成的实测中，尽管在部分非通用任务上仍有波折，但在阿里深耕的垂直领域，表现堪称惊艳。以搭建水果电商网站为例，从商品检索、购物车逻辑到结算流程，模型几乎做到了“一次性成稿”，逻辑严密且用户体验丝滑。这得益于淘宝、天猫海量商业数据的投喂，使其在电商场景下拥有天然的工程直觉。

不过，模型在非舒适区的表现稳定性仍有提升空间。面对偏离常规的需求，用户可能需要通过多次迭代提示词来获得理想效果。

为了进一步探究其极限，我复刻了一个复杂的交互案例：基于摄像头识别的体感射击游戏。需求要求模型通过手势控制准星，利用捏合动作击发气球，并包含动态背景、粒子效果及连击反馈。千问的表现出乎意料，它迅速搭建了完整的游戏架构，包括色彩渐变的天空、随机生成的气球运动逻辑以及多维度的UI反馈。

交互层面的完成度非常高。手势追踪灵敏，捏合开火的即时感很强，配合屏幕震动、粒子迸发特效以及清脆的音效反馈，沉浸感十足。然而，核心痛点在于精度控制。准星与实际手指位置存在一定偏移，导致玩家需要反复校准才能击中目标。这表明模型在复杂空间坐标映射的底层算法上，仍需进一步精细化调优。

Qwen3的核心竞争力不在于体量，而在于其“思维范式”的根本转变。该模型引入了全新的测试时扩展（Test-time Scaling）机制，在提升推理上限的同时大幅优化了计算效率。

与传统AI“盲目投票”的答题方式不同，Qwen3更像是一个懂得“复盘”的学者：它会先尝试作答，随后进行自我审视与经验总结，通过迭代修正来逼近正确答案。这种类似人类“错题本”的学习逻辑，使其在复杂工具调用任务中，以58.3分的高分将Gemini（45.8分）甩在身后。

在工具使用层面，通义团队采用了“原生训练”策略。通过三步强化学习——初步微调、多任务强化、奖励机制训练，将工具使用能力转化为模型的“肌肉记忆”。这使得Qwen3在面对复杂、连续的工具调用任务时，无需频繁查阅说明书，响应更快、更精准。相比之下，Gemini依赖外部API框架的“传统软件工程”模式虽然灵活，但在长链路推理中显得繁琐且易出错。

整体而言，Qwen3-Max-Thinking的代码生成已跨越单纯的“语法搬运”，展现出了一种罕见的工程直觉：它不仅理解需求，更懂得在何时该优化性能、何时该增强容错，正从单纯的“生产工具”进化为真正的“技术协作者”。