当前位置：首页 > 科技资讯 > 正文

微博发布VibeThinker：15亿参数小模型7800美元成本，数学推理能力超越巨量模型

主机测评网
科技资讯
2026-02-23
517

在AI领域的激烈竞争中，一个过去或许只能被视为边缘角色的参与者，如今正悄然向核心圈发起冲击。它就是身处北京中关村人工智能聚集区、但在AI技术上长期存在感不强的微博。

近日，微博正式开源其首个模型VibeThinker。该模型凭借仅15亿的微小参数量和7800美元的极低后训练成本，在国际顶级数学测试中斩获高分，以轻巧之姿挑战了“规模即智能”的行业共识。

真故研究室独家对话微博首席科学家张俊林。他直言，这是一场突破行业共识的实验。“在此之前，无人相信小模型能解决复杂问题，但VibeThinker证明了可以。”这场低成本、高智能的逆袭，或将重新定义AI赛道的游戏规则。

01 夺榜

“当看到VibeThinker在国际顶级数学测试中取得优异成绩，我感到非常惊喜。”在北京的新浪总部大厦，张俊林对真故研究室说。

VibeThinker研发周期从今年9月到11月，为期3个月。如同许多新发布的大模型，它需要通过“打榜”来确定自身“最强大脑”在行业中的位置。

评估大模型逻辑推理能力，业内常用三大基础评测：数学、竞赛编程和科学知识。得分靠前，意味着模型在特定领域获得了“职业资格证”，这不仅能吸引投资和人才，也有助于市场宣传和用户教育。

VibeThinker的高评分主要集中在数学评测上。大模型数学领域的三个高难度测试集——AIME2024、AIME2025和HMMT2025，以复杂性和挑战性著称，常用于评估模型的数学推理能力。

其中，AIME全称“美国数学邀请赛”，始于1983年，由美国数学协会主办，包含30道填空题。HMMT全称“哈佛-麻省理工数学锦标赛”，始于1998年，包含近50道数学题，难度被认为高于AIME，是面向高中生的最具挑战性的国际团队数学竞赛之一。

作为两项极具挑战性的人类数学考试，AIME和HMMT旨在从数学尖子生中筛选顶尖精英。如今用于大模型评测，它们自然成为评估模型高级推理能力的“试金石”和“标杆”。

张俊林透露，VibeThinker在AIME2024、AIME2025和HMMT2025三个测试集中的得分分别为80.4分、74.4分和50.5分。

微博发布VibeThinker：15亿参数小模型7800美元成本，数学推理能力超越巨量模型微博 VibeThinker AI模型小模型推理第1张

图 | VibeThinker在测试集中的得分，源自张俊林微博

“这并不意味着VibeThinker的得分是行业最高，而应相对看待。”他将通过这三项数学测试的大模型按能力分为三档。

以AIME2025为例，通过该测试的最高得分为95分。获得平均90分以上的模型，仍是参数量超过1000亿或接近1000亿的超大模型，如智谱GLM-4.6（3550亿参数）、Kimi-K2 thinking（10000亿参数）、GPT5、Gemini 3.0 Pro，属第一档。

微博发布VibeThinker：15亿参数小模型7800美元成本，数学推理能力超越巨量模型微博 VibeThinker AI模型小模型推理第2张

图 | AIME2025数学测试集

第二档平均88分，主要有Gemini2.5 Pro、OpenAI O4系列模型。相比之下，VibeThinker在AIME2025中得74.4分，与前两档仍有差距，但胜在仅15亿参数，属最小模型之列。

在第三档圈层中，年初发布的DeepSeek-R1得70分，但其参数高达6850亿，是VibeThinker的数百倍。VibeThinker的分数也接近参数4560亿的MiniMax-M1，显示出微博凭借技术攻坚，以小模型刷新了智能极限。

微博发布VibeThinker：15亿参数小模型7800美元成本，数学推理能力超越巨量模型微博 VibeThinker AI模型小模型推理第3张

图 | HMMT2025数学测试集

“大模型一般分为文科智能和理科智能。文科智能看文采，理科智能则看数学等推理能力。数学能力是大模型推理的重要基础，并非要成为垂直数学模型，而是如‘学好数理化，走遍天下都不怕’。”张俊林说。

理科智能高，训练成本却创新低。据披露，VibeThinker后训练成本仅7800美元，张俊林测算，比DeepSeek-R1的后训练成本降低约40倍，性价比突出。

至此，在中国已发布的1509个大模型中（新华社7月数据），VibeThinker至少在数学测试子集中，以“以小博大”的成绩和“较高理科智能”占据一席之地。

微博，这个正努力用AI改造平台基因的企业，继此前知微大模型后，拥有了第二张具辨识度的大模型产品。但张俊林强调，“VibeThinker目前能力局限于数学和竞赛编程推理，未用聊天数据调整，暂不适合日常对话，需进一步训练。”

攻坚

VibeThinker在AIME2025中74.4分是如何达成的？张俊林回答：从4分起步，逐步提升。

作为大模型行业的“轻量级选手”，VibeThinker挑战高度智能并不被看好。行业普遍认为复杂推理需1000亿以上参数才能涌现，而10亿级小模型通常因“天生不足”难以处理高难度问题。

然而，这正是张俊林探索新知、挑战传统观点的爽点所在，也是他愿长留微博的原因。他出身自然语言处理和检索，认为微博有两大优势：一是社交数据丰厚开放，是战略资源；二是愿意给予“新课题探索空间”。

数月前，VibeThinker项目启动，研发呈“先易后难”态势。初期，张俊林团队利用阿里千问大模型做基础模型（Foundation Model），相当于拿到原生矿石，后续通过“后训练”（微调、对齐）雕琢成器。

团队用该基础模型在AIME2025部分子集测试，得分仅4分多。接下来需训练提高解题推理能力。从4分到50分相对容易，团队采用了改进版的GRPO强化学习算法。

GRPO（Group Relative Policy Optimization）与行业常用RLHF（人类反馈强化学习）不同。RLHF需雇佣“考官”（奖励模型）按标准答案给每一步打分，成本高且训练不稳定；GRPO则让模型“比昨天的自己更好”，内生驱动，成本低、稳定且效果卓越。

借助GRPO，VibeThinker快速从4分攀上50多分，但之后每提升1分都异常艰难，“有时像卡在楼梯上，不知如何突破。”张俊林认为，AI基础研究不同于应用，效果不确定，谁也不知15亿参数小模型的智能上限在哪。

“是50分就到顶，还是能更高？”每分都考验工程师的决断。像辅导孩子提分，张俊林每天早到办公室1-2小时，阅读行业最新论文寻找“外部智援”。他发现，每日千篇论文中，99%以上不具备解决一线问题的落地能力，只得采用最朴素的“试错”法，通过多种训练方法一分一分争取，如同高考冲刺，从100到110分需从普适经验转向个人创新。

过程中，张俊林团队提出“频谱到信号原理”（SSP）训练方法。行业虽有相关提法但无专门论述，VibeThinker首次将其付诸实操，借助此法战胜了数百倍体量的“巨人”。

SSP核心是重新思考SFT（监督微调）和RL（强化学习）的关系。SFT旨在让基础模型适应特定领域，打好基础；RL则通过奖励机制引导行为，提升质量与安全性。行业通常先SFT后RL，两者目标一致（优化Pass@1，即第一个回答准确率），但张俊林认为这会导致RL探索空间小。他的做法是分工合作：SFT应优先优化Pass@K（一题多解能力），先做好多样性，为RL打开探索空间。这类似推荐系统的“召回+排序”两阶段：召回负责多样性，排序负责精准性，即“频谱到信号”的呈现。

团队实操发现，这能提高小模型训练效果，成功将VibeThinker得分从50多分逐步提升至74.4分。这种训练方法创新已成行业共识，如“知识蒸馏”是战术级创新，而微博的SSP为行业提供了新方案，改变了堆算力、参数、烧钱的惯性依赖。

VibeThinker的科研成果在海内外引发广泛影响，吸引权威科技媒体报道，张俊林远在美国Meta的朋友也希望用SSP方法复刻模型。

微博发布VibeThinker：15亿参数小模型7800美元成本，数学推理能力超越巨量模型微博 VibeThinker AI模型小模型推理第4张

图 | VibeThinker大模型在海外引发广泛关注

应用

VibeThinker的实践推翻了“小模型难有高度推理能力”的固有结论。张俊林表示，“VibeThinker开源彻底，有助于微博平台生成各类AI应用，也能将技术红利外溢，中小企业可在此基础上再开发，服务自身业务。”

VibeThinker的研发并非天马行空，而是源于微博平台的实际需求——评论罗伯特。

评论罗伯特是微博2023年7月上线的AI机器人，活跃于评论区，基于微博自研闭源大模型知微，深度学习用户帖子生成评论，与用户互动。上线之初，它以“魔童”风格横冲直撞，一度成为社交话题。

微博发布VibeThinker：15亿参数小模型7800美元成本，数学推理能力超越巨量模型微博 VibeThinker AI模型小模型推理第5张

图 | 评论罗伯特，微博用户大多遇到过

评论罗伯特并非微博自上而下的S级项目，而是源于公司内部“AI创新大赛”的员工创意。ChatGPT诞生后，微博鼓励员工2-3人组队提出AI应用创意，评论罗伯特便是之一，虽未获奖，但微博以“试一试”心态将其落地。

支持罗伯特运行的大模型，于今年6月融合了类似DeepSeek-R1的深度思考能力，以提升回复的逻辑深度和个性化。但这带来问题：模型规模大，每次思考回复耗时长、成本偏高。DeepSeek-R1每次推理激活370亿参数（占总参数5.5%），虽已降本增效，但仍不便宜。

微博透露，评论罗伯特每天生成约百万条AI评论，专挑粉丝数百人的普通用户，给予心理抚慰。看似只有“一位罗伯特”，实则背后有6、7个Agent协同操作：有的遴选用户，有的学习帖子图片，有的生成评论，评论风格又细分为娱乐、科技、犀利、温情等Agent负责。

张俊林也是评论罗伯特项目负责人。因应项目需求，开发参数更小、成本更低但智能仍高的模型成为直接需求，这才催生VibeThinker，也才有了团队为期3个月的“数学能力攻坚战”。

回顾这三个月，张俊林坦言常有“脑袋转不动、情绪低沉”的时刻，但作为AI研发者，解题思路朴素得出奇：“遇到问题、头脑风暴、思考方案、试错，此路不通换一条，用理性说服。”这本质是AI工程师被数学牵引的思维之光。

目前，微博平台内已实现开源模型与知微大模型的“双模型引擎”。后者负责另一款AI应用——微博智搜，与评论罗伯特成为微博AI应用的两块看板，激活了平台生态。

据微博2025年Q3财报，微博智搜MAU突破7000万，DAU和检索量环比提升超50%。评论罗伯特虽有不感冒的用户，但张俊林内部A/B测试显示，引入罗伯特后，用户活跃提高，社交氛围改善，而这正是微博需要补强的。

张俊林表示，接下来将基于VibeThinker技术，融入微博领域数据提升现有AI应用效果，同时减少参数以大幅降低成本。VibeThinker也将进一步训练，摸索在其他方面提升智能的方法，并欢迎平台外主体活用其成果，实现降本增效与赋能。

最后，他总结了小模型的未来：“从罗伯特中来，到罗伯特们中去。”如同“从群众中来，到群众中去”，AI用起来方便、便宜、能成事才是最关键的。

高防服务器免费vps

本文由主机测评网于2026-02-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260226770.html

微博发布VibeThinker：15亿参数小模型7800美元成本，数学推理能力超越巨量模型

01 夺榜

攻坚

应用

实战评测：GLMCodingPlan在Linux上复刻智谱AI输入法

保姆级教程：在Ubuntu上部署ClaudeCodeUI（从零开始搭建你的AI编程助手）

微博发布VibeThinker：15亿参数小模型7800美元成本，数学推理能力超越巨量模型

01 夺榜

攻坚

应用

实战评测：GLMCodingPlan在Linux上复刻智谱AI输入法

保姆级教程：在Ubuntu上部署ClaudeCodeUI（从零开始搭建你的AI编程助手）

相关文章