首款国产版Gemini 3,正式登场。
1月26日,阿里巴巴重磅发布了其通义千问系列的旗舰级推理模型——Qwen3-Max-Thinking。
根据官方披露,Qwen3-Max-Thinking拥有超过万亿的惊人参数规模,预训练数据量更是高达36T Tokens。在GPQA Diamond(科学知识)、IMO-AnswerBench(数学推理)以及LiveCodeBench(代码编程)等国际权威评测中,该模型连续刷新全球纪录。值得关注的是,它在数学推理测试AIME 25和HMMT 25上实现了国内首个“双满分”突破,并在被称为“人类最后考验”的HLE测试中斩获58.3分,显著超越了GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分。
更具深意的是发布时机。近期全球AI大厂动作频频,阿里选择在此时亮出Qwen3-Max-Thinking,其目标直指“国产首款Gemini 3”的王冠。
除了亮眼的榜单数据,它在实际场景中能否真正抗衡Gemini 3?
在代码生成的实测中,尽管在部分非通用任务上仍有波折,但在阿里深耕的垂直领域,表现堪称惊艳。以搭建水果电商网站为例,从商品检索、购物车逻辑到结算流程,模型几乎做到了“一次性成稿”,逻辑严密且用户体验丝滑。这得益于淘宝、天猫海量商业数据的投喂,使其在电商场景下拥有天然的工程直觉。
不过,模型在非舒适区的表现稳定性仍有提升空间。面对偏离常规的需求,用户可能需要通过多次迭代提示词来获得理想效果。
为了进一步探究其极限,我复刻了一个复杂的交互案例:基于摄像头识别的体感射击游戏。需求要求模型通过手势控制准星,利用捏合动作击发气球,并包含动态背景、粒子效果及连击反馈。千问的表现出乎意料,它迅速搭建了完整的游戏架构,包括色彩渐变的天空、随机生成的气球运动逻辑以及多维度的UI反馈。
交互层面的完成度非常高。手势追踪灵敏,捏合开火的即时感很强,配合屏幕震动、粒子迸发特效以及清脆的音效反馈,沉浸感十足。然而,核心痛点在于精度控制。准星与实际手指位置存在一定偏移,导致玩家需要反复校准才能击中目标。这表明模型在复杂空间坐标映射的底层算法上,仍需进一步精细化调优。
Qwen3的核心竞争力不在于体量,而在于其“思维范式”的根本转变。该模型引入了全新的测试时扩展(Test-time Scaling)机制,在提升推理上限的同时大幅优化了计算效率。
与传统AI“盲目投票”的答题方式不同,Qwen3更像是一个懂得“复盘”的学者:它会先尝试作答,随后进行自我审视与经验总结,通过迭代修正来逼近正确答案。这种类似人类“错题本”的学习逻辑,使其在复杂工具调用任务中,以58.3分的高分将Gemini(45.8分)甩在身后。
在工具使用层面,通义团队采用了“原生训练”策略。通过三步强化学习——初步微调、多任务强化、奖励机制训练,将工具使用能力转化为模型的“肌肉记忆”。这使得Qwen3在面对复杂、连续的工具调用任务时,无需频繁查阅说明书,响应更快、更精准。相比之下,Gemini依赖外部API框架的“传统软件工程”模式虽然灵活,但在长链路推理中显得繁琐且易出错。
整体而言,Qwen3-Max-Thinking的代码生成已跨越单纯的“语法搬运”,展现出了一种罕见的工程直觉:它不仅理解需求,更懂得在何时该优化性能、何时该增强容错,正从单纯的“生产工具”进化为真正的“技术协作者”。
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260434012.html