当前位置：首页 > 科技资讯 > 正文

美团LongCat-Flash：算力调度新纪元

主机测评网
科技资讯
2026-04-26
1005

算力，正如运力一般，需要被精准地调度与管理。

想象在深夜时分，你点了一份外卖。不久后，系统迅速为你派来了最近的骑手，无需全城动员，他只需顺路接单，就能将一碗热腾腾的汤准时送达你手中。

美团正将这种“派单逻辑”引入AI世界。

在最新发布的LongCat-Flash模型中，算力不再是一股脑地投入，而是像运力一样被精准调度：复杂问题派遣更多“高手”，简单问题则就近解决，最大限度地减少浪费。

美团的近期财报及其所处的竞争环境，让它需要新的故事。而LongCat-Flash，正是美团递出的第一张筹码，在大模型赛道上展开另一场战斗，将百万tokens的推理成本降至0.7美元。

以下是LongCat-Flash技术文档解读：像管理运力一样管理算力

1 技术创新：算力融入算法之中

LongCat-Flash的独到之处，并非在于其“规模庞大”，而在于其“精打细算”。

总参数规模达5600亿，但在实际推理时，每个token仅需调用一小部分，约18.6B–31.3B。可以将其想象为一个庞大的骑手团队，并非每单都需要全员出动，而是根据订单难度，派出最合适的骑手。这样既能保证覆盖面，又避免了算力浪费。

而“零计算专家”，其实是处理简单任务的捷径。

例如，送楼下便利店的一瓶水，无需总部复杂调度，附近小哥顺路即可完成。同样地，LongCat-Flash遇到简单token时，直接放行，不浪费多余算力，将资源留给真正复杂的任务。这种“按需分配”的逻辑，使模型像调度运力一样，将任务分配得更合理。

美团LongCat-Flash：算力调度新纪元 LongCat-Flash 算力调度 AI模型美团第1张

上图展示了LongCat-Flash的整体架构：每层由多头潜在注意力（MLA）+ MoE专家组成，其中一部分是零计算专家，确保遇到简单token时可“零开销”直接通过。

(a)曲线显示：在相同算力预算下，加入零计算专家的模型loss更低，收敛更快；(b)激活专家数稳定在8个左右，平均约27B参数；(c)不同token之间算力分配差异明显，说明模型确实在“挑单子”。

美团LongCat-Flash：算力调度新纪元 LongCat-Flash 算力调度 AI模型美团第2张

另一个创新点叫ScMoE（Shortcut-connected MoE）。传统模型需等一批任务全部处理完再进入下一批。

ScMoE的思路是“边派边送”：骑手在送餐的同时，系统已开始为他规划下一单。这样算力的使用和通信可同时进行，整体效率自然提升。

美团LongCat-Flash：算力调度新纪元 LongCat-Flash 算力调度 AI模型美团第3张

图中三组曲线显示：有无ScMoE的loss几乎重合，质量完全一致，但由于通信和计算可重叠，ScMoE在吞吐率和推理速度上显著提升。

2 工程能力：为算力购买“社保”

规模大、速度快只是第一步，关键在于能否稳定运行。LongCat-Flash的训练方式更像是在逐步扩张一个运力网络：先在小范围试运行，将调度规则、路线规划调整好，再推广到更大范围，避免一开始就乱成一团。

为防止系统崩溃，它设置了“三重保障”：Router稳定相当于避免所有订单都集中在一条线路；激活稳定让算力使用更合理；优化器稳定则保证整体调度有节奏，长期能运行下去。正是靠这套机制，它在30天内完成了20万亿tokens的训练任务。

3 性能比较：表现稳健

从成绩单来看，LongCat-Flash不仅推理速度快，在各大基准测试中同样表现稳健：

通用任务

在MMLU（89.71）和CEval（90.44）中，LongCat-Flash达到与国际一线模型相当的水准。虽然CEval分数略低于Kimi-K2（91.26），但整体表现依旧领先大多数基线模型，展现了不错的中文理解能力。

复杂推理

在GPQA-diamond（73.23）上，LongCat-Flash与同类模型保持相近水准；在DROP（79.06）、ZebraLogic（89.30）、GraphWalks-128k（51.05）等测试中，也稳定处于中上游梯队。

数学能力

在MATH500（96.40）和AIME24（70.42）上，LongCat-Flash与Kimi-K2、DeepSeek相比差距不大，维持在高水平。在BeyondAIME（43.00）上虽有下滑，但整体仍优于多数模型。

编程任务

在HumanEval+（88.41）、MBPP+（79.63）等benchmark上，LongCat-Flash表现稳定，略低于Kimi-K2（93.29、79.87），但依旧优于Gemini2.5 Flash、Claude Sonnet等对手。

美团LongCat-Flash：算力调度新纪元 LongCat-Flash 算力调度 AI模型美团第4张

4 实测美团LongCat-Flash：快

从上述测试基准中可见，美团LongCat-Flash的性能并未遥遥领先其他主流模型。因此很多常用测试中看不出明显差别。但有一点：

美团这个模型是真的快。

写一个Python函数is_prime(n)，判断n是否是质数并给出10个不同测试样例。

左边模型是LongCat-Flash网页端，右边是Kimi 1.5（根据官网描述响应更快）。可以看到同样的提示词下LongCat-Flash没有怎么思考内容就直接输出而Kimi 1.5经过短暂思考后才慢悠悠地输出。

在核心代码部分二者没有差别可以说LongCat-Flash又快又好。

美团LongCat-Flash：算力调度新纪元 LongCat-Flash 算力调度 AI模型美团第5张

LongCat-Flash的速度和价格优势未必能立刻改写行业格局。毕竟在大模型市场生态和用户习惯往往比性能参数更具粘性。但它却传递了一个信号：美团依然习惯用自己最擅长的打法将复杂的科技问题转化为“调度运力”的逻辑再用价格杠杆撬开市场。

这让问题变得更有趣：

当AI巨头们在谈模型规模、参数精度时美团却在谈派单效率和成本曲线。它看似“接地气”的切入点反而可能成为搅动格局的变量就像曾经的DeepSeek那样。

十年前美团用补贴烧出了外卖帝国。十年后它是否能靠另一场价格战将自己送进大模型的牌桌？没人能给出答案但至少可以确定的是美团已经递出了第一张筹码。

服务器教程免费服务器免费vps

本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260440574.html

美团LongCat-Flash：算力调度新纪元

1

技术创新：算力融入算法之中

2

工程能力：为算力购买“社保”

3

性能比较：表现稳健

4

实测美团LongCat-Flash：快

银行App转型：从增量到存量，精细化运营是关键

Meta豪掷150亿，Scale AI跃升AI产业链核心

美团LongCat-Flash：算力调度新纪元

1

技术创新：算力融入算法之中

2

工程能力：为算力购买“社保”

3

性能比较：表现稳健

4

实测美团LongCat-Flash：快

银行App转型：从增量到存量，精细化运营是关键

Meta豪掷150亿，Scale AI跃升AI产业链核心

相关文章