在巨头林立的AI赛场上,一个此前可能只配坐“小孩桌”的玩家,正发起挑战。它就是身在北京中关村人工智能宇宙中心的微博,在AI领域一直被认为技术存在感不太强。
近日,微博发布了首个开源模型VibeThinker,它以15亿的微小参数和7800美元的极低成本,在国际顶级数学测试中获得相对高分,刷新了智能极限。这一结果,无异于以轻巧之姿,刺向了“规模即智能”的行业铁律。
《真故研究室》独家对话了微博首席科学家张俊林。他直言,这是一场突破行业共识的实验。“在此之前,无人相信小模型能解决复杂问题,但VibeThinker证明了可以。”这场低成本、高智能的奇袭,或许将重新定义AI赛道的游戏规则。
“当看到VibeThinker在国际顶级数学测试中获得好成绩,我很喜出望外。”在北京的新浪总部大厦,张俊林对《真故研究室》说。
VibeThinker的研发周期从今年9月到11月,为期3个月。如很多新发布的大模型一样,它需要通过“打榜”来确定自身“最强大脑”在行业中的卡位。
评估一个新的大模型的逻辑推理能力,业内有三大基础评测,分别是数学、竞赛编程和科学知识。如果得分卡位靠前,相当于一个职场专业人士拿到某一领域的“职业资格证”。这份成绩既能为企业吸引投资、人才,也能完成对市场的宣传与对普通用户的心智教育。
VibeThinker的高评分主要集中在数学领域的评测上。大模型数学领域的三个高难度测试集分别是AIME2024、AIME2025和HMMT2025。这些测试集以复杂性和挑战性著称,常用于评估大模型的数学推理能力。
其中,AIME全名叫“美国数学邀请赛”,始于1983年,由美国数学协会制定和主办,一般是由30道填空题组成。HMMT全名叫做“哈佛-麻省理工数学锦标赛”,始于1998年,由近50道数学题组成。如今用在大模型评测中,也被寄予发挥“过滤器”和“强化器”的作用。
图 | VibeThinker在测试集中的得分,源自张俊林微博
“这并不是说VibeThinker的得分是行业中最高的,而应该相对来看。”他将通过这三项数学测试的各类大模型从能力上分为三档。
以AIME2025为例,通过该数学测试集的大模型最高得分为95分。获得平均90分以上的玩家仍是以参数量超过1000亿或接近1000亿的超大模型为主。与之比起来,VibeThinker在AIME2025中评分为74.4分,虽然与前两个档位的模型有显著差距,但它胜在模型参数只有15亿。
VibeThinker在AIME2025的测评中74.4分是如何达到的?张俊林的答案是:“从4分开始往上提的。”
作为大模型行业中的“轻量级选手”,VibeThinker挑战高度智能并不被看好。因为行业普遍认为要实现复杂的推理能力需要1000亿以上的参数才能涌现(1000亿为大模型的入门门槛),而10亿左右及以下的小模型通常因为无法处理高难度问题而被视为“天生不足”。
不过,这恰好是张俊林希望通过探索新知来挑战行业传统观点的爽点所在。他利用阿里千问大模型做了一个基础模型(Foundation Model),并在AIME2025的部分子集做了测试,得分只有四点几分。接下来要做的就是对这块原生矿石进行训练提高它的解题和推理能力。
张俊林团队使用的训练方法是改进版本的GRPO强化学习算法。借助GRPO强化学习算法VibeThinker快速从4分攀上了50多分但之后的路越来越难走。张俊林明显感受到“每攀1分都变得困难”。
张俊林认为“与做AI应用强调效果的确定性不同做AI基础研究是不确定的谁都不知道结果会怎样。”他每日提早1-2小时约摸8点左右到办公室通过阅读行业内每日发布的最新论文来获得“外部智援”。
经过实操发现“这样能提高小模型的训练效果”也正是经过这一操作张俊林团队成功将VibeThinker在AIME2025的得分从50多分一点一点提升至74.4分。
VibeThinker的实践推翻了行业内的固有结论——小模型难以具备高度的推理能力。
张俊林表示:“VibeThinker是开源十分彻底的模型将有助于微博平台继续生成各类AI应用也能将技术红利外溢给其他主体尤其是中小企业完全可以在VibeThinker基础上进行再开发服务于自己的业务。”
实际上微博做VibeThinker并非天马行空的“前沿未知探索”它的出发点主要来自于要服务微博平台内一项很实际的应用需求——即评论罗伯特。
评论罗伯特是微博在2023年7月上线的一款AI机器人。人如其名它的活跃区域是评论区其具体运作机制最先是基于微博自研的闭源大模型——知微大模型来深度学习微博用户发布的各类帖子从而生成评论贴与用户形成互动。
图 | 评论罗比特微博用户大多遇到过
支持评论罗伯特运行的大模型于今年6月融合了类似DeepSeek-R1模型的深度思考能力目的是借用其深度学习与思考能力提升回复的逻辑深度和个性化水平让用户的体验更好。
但这也带来相应的问题因为模型规模比较大每进行一次深度思考与回复耗时长使用成本也偏贵。有公开报道称DeepSeek-R1每次推理时激活的参数量为370亿占总参数量5.5%虽然在“干活”时已经实现了降本增效但仍然成本不算便宜。
微博方面透露评论罗伯特每天大约要生成百万条AI评论且专挑粉丝数只有几百人的微博普通用户追求给很多情绪低沉的用户以心理抚慰。
张俊林表示接下来会基于VibeThinker探索出的技术一方面融入微博领域数据提升现有AI应用的效果一方面减少模型参数大幅节省应用成本。同时VibeThinker也将进一步训练摸索在其它方面提升智能的方法。
本文由主机测评网于2026-05-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545299.html