当前位置:首页 > 科技资讯 > 正文

美团LongCat-Flash:算力调度新纪元

算力,正如运力一般,需要被精准地调度与管理。

想象在深夜时分,你点了一份外卖。不久后,系统迅速为你派来了最近的骑手,无需全城动员,他只需顺路接单,就能将一碗热腾腾的汤准时送达你手中。

美团正将这种“派单逻辑”引入AI世界。

在最新发布的LongCat-Flash模型中,算力不再是一股脑地投入,而是像运力一样被精准调度:复杂问题派遣更多“高手”,简单问题则就近解决,最大限度地减少浪费。

美团的近期财报及其所处的竞争环境,让它需要新的故事。而LongCat-Flash,正是美团递出的第一张筹码,在大模型赛道上展开另一场战斗,将百万tokens的推理成本降至0.7美元。

以下是LongCat-Flash技术文档解读:像管理运力一样管理算力

1

技术创新:算力融入算法之中

LongCat-Flash的独到之处,并非在于其“规模庞大”,而在于其“精打细算”。

总参数规模达5600亿,但在实际推理时,每个token仅需调用一小部分,约18.6B–31.3B。可以将其想象为一个庞大的骑手团队,并非每单都需要全员出动,而是根据订单难度,派出最合适的骑手。这样既能保证覆盖面,又避免了算力浪费。

而“零计算专家”,其实是处理简单任务的捷径。

例如,送楼下便利店的一瓶水,无需总部复杂调度,附近小哥顺路即可完成。同样地,LongCat-Flash遇到简单token时,直接放行,不浪费多余算力,将资源留给真正复杂的任务。这种“按需分配”的逻辑,使模型像调度运力一样,将任务分配得更合理。

美团LongCat-Flash:算力调度新纪元 LongCat-Flash 算力调度 AI模型 美团 第1张

上图展示了LongCat-Flash的整体架构:每层由多头潜在注意力(MLA)+ MoE专家组成,其中一部分是零计算专家,确保遇到简单token时可“零开销”直接通过。

(a)曲线显示:在相同算力预算下,加入零计算专家的模型loss更低,收敛更快;(b)激活专家数稳定在8个左右,平均约27B参数;(c)不同token之间算力分配差异明显,说明模型确实在“挑单子”。

美团LongCat-Flash:算力调度新纪元 LongCat-Flash 算力调度 AI模型 美团 第2张

另一个创新点叫ScMoE(Shortcut-connected MoE)。传统模型需等一批任务全部处理完再进入下一批。

ScMoE的思路是“边派边送”:骑手在送餐的同时,系统已开始为他规划下一单。这样算力的使用和通信可同时进行,整体效率自然提升。

美团LongCat-Flash:算力调度新纪元 LongCat-Flash 算力调度 AI模型 美团 第3张

图中三组曲线显示:有无ScMoE的loss几乎重合,质量完全一致,但由于通信和计算可重叠,ScMoE在吞吐率和推理速度上显著提升。

2

工程能力:为算力购买“社保”

规模大、速度快只是第一步,关键在于能否稳定运行。LongCat-Flash的训练方式更像是在逐步扩张一个运力网络:先在小范围试运行,将调度规则、路线规划调整好,再推广到更大范围,避免一开始就乱成一团。

为防止系统崩溃,它设置了“三重保障”:Router稳定相当于避免所有订单都集中在一条线路;激活稳定让算力使用更合理;优化器稳定则保证整体调度有节奏,长期能运行下去。正是靠这套机制,它在30天内完成了20万亿tokens的训练任务。

3

性能比较:表现稳健

从成绩单来看,LongCat-Flash不仅推理速度快,在各大基准测试中同样表现稳健:

  • 通用任务

在MMLU(89.71)和CEval(90.44)中,LongCat-Flash达到与国际一线模型相当的水准。虽然CEval分数略低于Kimi-K2(91.26),但整体表现依旧领先大多数基线模型,展现了不错的中文理解能力。

  • 复杂推理

在GPQA-diamond(73.23)上,LongCat-Flash与同类模型保持相近水准;在DROP(79.06)、ZebraLogic(89.30)、GraphWalks-128k(51.05)等测试中,也稳定处于中上游梯队。

  • 数学能力

在MATH500(96.40)和AIME24(70.42)上,LongCat-Flash与Kimi-K2、DeepSeek相比差距不大,维持在高水平。在BeyondAIME(43.00)上虽有下滑,但整体仍优于多数模型。

  • 编程任务

在HumanEval+(88.41)、MBPP+(79.63)等benchmark上,LongCat-Flash表现稳定,略低于Kimi-K2(93.29、79.87),但依旧优于Gemini2.5 Flash、Claude Sonnet等对手。

美团LongCat-Flash:算力调度新纪元 LongCat-Flash 算力调度 AI模型 美团 第4张

4

实测美团LongCat-Flash:快

从上述测试基准中可见,美团LongCat-Flash的性能并未遥遥领先其他主流模型。因此很多常用测试中看不出明显差别。但有一点:

美团这个模型是真的快。

写一个Python函数is_prime(n),判断n是否是质数并给出10个不同测试样例。

左边模型是LongCat-Flash网页端,右边是Kimi 1.5(根据官网描述响应更快)。可以看到同样的提示词下LongCat-Flash没有怎么思考内容就直接输出而Kimi 1.5经过短暂思考后才慢悠悠地输出。

在核心代码部分二者没有差别可以说LongCat-Flash又快又好。

美团LongCat-Flash:算力调度新纪元 LongCat-Flash 算力调度 AI模型 美团 第5张

LongCat-Flash的速度和价格优势未必能立刻改写行业格局。毕竟在大模型市场生态和用户习惯往往比性能参数更具粘性。但它却传递了一个信号:美团依然习惯用自己最擅长的打法将复杂的科技问题转化为“调度运力”的逻辑再用价格杠杆撬开市场。

这让问题变得更有趣:

当AI巨头们在谈模型规模、参数精度时美团却在谈派单效率和成本曲线。它看似“接地气”的切入点反而可能成为搅动格局的变量就像曾经的DeepSeek那样。

十年前美团用补贴烧出了外卖帝国。十年后它是否能靠另一场价格战将自己送进大模型的牌桌?没人能给出答案但至少可以确定的是美团已经递出了第一张筹码。