在AI领域的激烈竞争中,一个过去或许只能被视为边缘角色的参与者,如今正悄然向核心圈发起冲击。它就是身处北京中关村人工智能聚集区、但在AI技术上长期存在感不强的微博。
近日,微博正式开源其首个模型VibeThinker。该模型凭借仅15亿的微小参数量和7800美元的极低后训练成本,在国际顶级数学测试中斩获高分,以轻巧之姿挑战了“规模即智能”的行业共识。
真故研究室独家对话微博首席科学家张俊林。他直言,这是一场突破行业共识的实验。“在此之前,无人相信小模型能解决复杂问题,但VibeThinker证明了可以。”这场低成本、高智能的逆袭,或将重新定义AI赛道的游戏规则。
“当看到VibeThinker在国际顶级数学测试中取得优异成绩,我感到非常惊喜。”在北京的新浪总部大厦,张俊林对真故研究室说。
VibeThinker研发周期从今年9月到11月,为期3个月。如同许多新发布的大模型,它需要通过“打榜”来确定自身“最强大脑”在行业中的位置。
评估大模型逻辑推理能力,业内常用三大基础评测:数学、竞赛编程和科学知识。得分靠前,意味着模型在特定领域获得了“职业资格证”,这不仅能吸引投资和人才,也有助于市场宣传和用户教育。
VibeThinker的高评分主要集中在数学评测上。大模型数学领域的三个高难度测试集——AIME2024、AIME2025和HMMT2025,以复杂性和挑战性著称,常用于评估模型的数学推理能力。
其中,AIME全称“美国数学邀请赛”,始于1983年,由美国数学协会主办,包含30道填空题。HMMT全称“哈佛-麻省理工数学锦标赛”,始于1998年,包含近50道数学题,难度被认为高于AIME,是面向高中生的最具挑战性的国际团队数学竞赛之一。
作为两项极具挑战性的人类数学考试,AIME和HMMT旨在从数学尖子生中筛选顶尖精英。如今用于大模型评测,它们自然成为评估模型高级推理能力的“试金石”和“标杆”。
张俊林透露,VibeThinker在AIME2024、AIME2025和HMMT2025三个测试集中的得分分别为80.4分、74.4分和50.5分。
图 | VibeThinker在测试集中的得分,源自张俊林微博
“这并不意味着VibeThinker的得分是行业最高,而应相对看待。”他将通过这三项数学测试的大模型按能力分为三档。
以AIME2025为例,通过该测试的最高得分为95分。获得平均90分以上的模型,仍是参数量超过1000亿或接近1000亿的超大模型,如智谱GLM-4.6(3550亿参数)、Kimi-K2 thinking(10000亿参数)、GPT5、Gemini 3.0 Pro,属第一档。
图 | AIME2025数学测试集
第二档平均88分,主要有Gemini2.5 Pro、OpenAI O4系列模型。相比之下,VibeThinker在AIME2025中得74.4分,与前两档仍有差距,但胜在仅15亿参数,属最小模型之列。
在第三档圈层中,年初发布的DeepSeek-R1得70分,但其参数高达6850亿,是VibeThinker的数百倍。VibeThinker的分数也接近参数4560亿的MiniMax-M1,显示出微博凭借技术攻坚,以小模型刷新了智能极限。
图 | HMMT2025数学测试集
“大模型一般分为文科智能和理科智能。文科智能看文采,理科智能则看数学等推理能力。数学能力是大模型推理的重要基础,并非要成为垂直数学模型,而是如‘学好数理化,走遍天下都不怕’。”张俊林说。
理科智能高,训练成本却创新低。据披露,VibeThinker后训练成本仅7800美元,张俊林测算,比DeepSeek-R1的后训练成本降低约40倍,性价比突出。
至此,在中国已发布的1509个大模型中(新华社7月数据),VibeThinker至少在数学测试子集中,以“以小博大”的成绩和“较高理科智能”占据一席之地。
微博,这个正努力用AI改造平台基因的企业,继此前知微大模型后,拥有了第二张具辨识度的大模型产品。但张俊林强调,“VibeThinker目前能力局限于数学和竞赛编程推理,未用聊天数据调整,暂不适合日常对话,需进一步训练。”
VibeThinker在AIME2025中74.4分是如何达成的?张俊林回答:从4分起步,逐步提升。
作为大模型行业的“轻量级选手”,VibeThinker挑战高度智能并不被看好。行业普遍认为复杂推理需1000亿以上参数才能涌现,而10亿级小模型通常因“天生不足”难以处理高难度问题。
然而,这正是张俊林探索新知、挑战传统观点的爽点所在,也是他愿长留微博的原因。他出身自然语言处理和检索,认为微博有两大优势:一是社交数据丰厚开放,是战略资源;二是愿意给予“新课题探索空间”。
数月前,VibeThinker项目启动,研发呈“先易后难”态势。初期,张俊林团队利用阿里千问大模型做基础模型(Foundation Model),相当于拿到原生矿石,后续通过“后训练”(微调、对齐)雕琢成器。
团队用该基础模型在AIME2025部分子集测试,得分仅4分多。接下来需训练提高解题推理能力。从4分到50分相对容易,团队采用了改进版的GRPO强化学习算法。
GRPO(Group Relative Policy Optimization)与行业常用RLHF(人类反馈强化学习)不同。RLHF需雇佣“考官”(奖励模型)按标准答案给每一步打分,成本高且训练不稳定;GRPO则让模型“比昨天的自己更好”,内生驱动,成本低、稳定且效果卓越。
借助GRPO,VibeThinker快速从4分攀上50多分,但之后每提升1分都异常艰难,“有时像卡在楼梯上,不知如何突破。”张俊林认为,AI基础研究不同于应用,效果不确定,谁也不知15亿参数小模型的智能上限在哪。
“是50分就到顶,还是能更高?”每分都考验工程师的决断。像辅导孩子提分,张俊林每天早到办公室1-2小时,阅读行业最新论文寻找“外部智援”。他发现,每日千篇论文中,99%以上不具备解决一线问题的落地能力,只得采用最朴素的“试错”法,通过多种训练方法一分一分争取,如同高考冲刺,从100到110分需从普适经验转向个人创新。
过程中,张俊林团队提出“频谱到信号原理”(SSP)训练方法。行业虽有相关提法但无专门论述,VibeThinker首次将其付诸实操,借助此法战胜了数百倍体量的“巨人”。
SSP核心是重新思考SFT(监督微调)和RL(强化学习)的关系。SFT旨在让基础模型适应特定领域,打好基础;RL则通过奖励机制引导行为,提升质量与安全性。行业通常先SFT后RL,两者目标一致(优化Pass@1,即第一个回答准确率),但张俊林认为这会导致RL探索空间小。他的做法是分工合作:SFT应优先优化Pass@K(一题多解能力),先做好多样性,为RL打开探索空间。这类似推荐系统的“召回+排序”两阶段:召回负责多样性,排序负责精准性,即“频谱到信号”的呈现。
团队实操发现,这能提高小模型训练效果,成功将VibeThinker得分从50多分逐步提升至74.4分。这种训练方法创新已成行业共识,如“知识蒸馏”是战术级创新,而微博的SSP为行业提供了新方案,改变了堆算力、参数、烧钱的惯性依赖。
VibeThinker的科研成果在海内外引发广泛影响,吸引权威科技媒体报道,张俊林远在美国Meta的朋友也希望用SSP方法复刻模型。
图 | VibeThinker大模型在海外引发广泛关注
VibeThinker的实践推翻了“小模型难有高度推理能力”的固有结论。张俊林表示,“VibeThinker开源彻底,有助于微博平台生成各类AI应用,也能将技术红利外溢,中小企业可在此基础上再开发,服务自身业务。”
VibeThinker的研发并非天马行空,而是源于微博平台的实际需求——评论罗伯特。
评论罗伯特是微博2023年7月上线的AI机器人,活跃于评论区,基于微博自研闭源大模型知微,深度学习用户帖子生成评论,与用户互动。上线之初,它以“魔童”风格横冲直撞,一度成为社交话题。
图 | 评论罗伯特,微博用户大多遇到过
评论罗伯特并非微博自上而下的S级项目,而是源于公司内部“AI创新大赛”的员工创意。ChatGPT诞生后,微博鼓励员工2-3人组队提出AI应用创意,评论罗伯特便是之一,虽未获奖,但微博以“试一试”心态将其落地。
支持罗伯特运行的大模型,于今年6月融合了类似DeepSeek-R1的深度思考能力,以提升回复的逻辑深度和个性化。但这带来问题:模型规模大,每次思考回复耗时长、成本偏高。DeepSeek-R1每次推理激活370亿参数(占总参数5.5%),虽已降本增效,但仍不便宜。
微博透露,评论罗伯特每天生成约百万条AI评论,专挑粉丝数百人的普通用户,给予心理抚慰。看似只有“一位罗伯特”,实则背后有6、7个Agent协同操作:有的遴选用户,有的学习帖子图片,有的生成评论,评论风格又细分为娱乐、科技、犀利、温情等Agent负责。
张俊林也是评论罗伯特项目负责人。因应项目需求,开发参数更小、成本更低但智能仍高的模型成为直接需求,这才催生VibeThinker,也才有了团队为期3个月的“数学能力攻坚战”。
回顾这三个月,张俊林坦言常有“脑袋转不动、情绪低沉”的时刻,但作为AI研发者,解题思路朴素得出奇:“遇到问题、头脑风暴、思考方案、试错,此路不通换一条,用理性说服。”这本质是AI工程师被数学牵引的思维之光。
目前,微博平台内已实现开源模型与知微大模型的“双模型引擎”。后者负责另一款AI应用——微博智搜,与评论罗伯特成为微博AI应用的两块看板,激活了平台生态。
据微博2025年Q3财报,微博智搜MAU突破7000万,DAU和检索量环比提升超50%。评论罗伯特虽有不感冒的用户,但张俊林内部A/B测试显示,引入罗伯特后,用户活跃提高,社交氛围改善,而这正是微博需要补强的。
张俊林表示,接下来将基于VibeThinker技术,融入微博领域数据提升现有AI应用效果,同时减少参数以大幅降低成本。VibeThinker也将进一步训练,摸索在其他方面提升智能的方法,并欢迎平台外主体活用其成果,实现降本增效与赋能。
最后,他总结了小模型的未来:“从罗伯特中来,到罗伯特们中去。”如同“从群众中来,到群众中去”,AI用起来方便、便宜、能成事才是最关键的。
本文由主机测评网于2026-02-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260226770.html