当前位置：首页 > 科技资讯 > 正文

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破

主机测评网
科技资讯
2026-01-02
634

美团的龙猫大模型迎来重大升级，现已具备先进的推理思考能力！

智东西9月22日消息，美团在AI开源赛道持续加速推进。在首次开源大语言模型仅24天后，美团再次开源了其自主研发的推理模型LongCat-Flash-Thinking。

与基础模型LongCat-Flash类似，高效能同样是LongCat-Flash-Thinking的核心优势。美团技术报告披露，该模型基于自研的DORA强化学习基础设施训练，训练速度提升至原先的3倍以上，增幅超过200%。模型重点增强了形式推理与Agent推理任务，借助工具后推理效率大幅提高，例如在AIME-25基准测试中，平均token消耗降低64.5%。

LongCat-Flash-Thinking在多个领域基准测试中表现卓越：

在通用问答、数学推理、通用推理等相关评测中，它与GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等模型性能持平；

该模型还在安全、形式化定理证明等领域的多项基准测试中，显著领先上述4款推理模型，并在权威Agent工具调用基准测试τ²-Bench中，超越除GPT-5-Thinking外的所有参评模型。

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破美团 LongCat-Flash-Thinking 推理模型开源AI 第1张

目前，LongCat-Flash-Thinking模型已开源至GitHub、Hugging Face等平台，技术报告同步发布，用户可通过体验链接直接使用。但在实际体验中，模型推理和回答长度常超出链接限制，导致答案不完整。

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破美团 LongCat-Flash-Thinking 推理模型开源AI 第2张

开源地址：

https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

https://github.com/meituan-longcat/LongCat-Flash-Thinking

体验链接：

https://longcat.chat/

01.通过课程学习逐步构建能力，Agent与形式化推理能力显著增强

在模型预训练阶段，LongCat团队采用课程学习方法，让模型先夯实基础，再专项突破，最终构建出广度与深度兼备的推理能力。

LongCat-Flash-Thinking基于LongCat-Flash训练而成，经历了推理增强的中期训练（Mid-training）和面向推理的有监督微调（SFT）。

研究团队专门构建了高难度推理训练集，涵盖数学、物理、化学及编程问题，并通过数据比例控制，确保模型在强化逻辑推理的同时不丢失通用能力。

实验表明，这一阶段显著扩展了模型的“推理边界”：在AIME、BeyondAIME和LiveCodeBench等基准上，单步准确率和高采样准确率均大幅提升。

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破美团 LongCat-Flash-Thinking 推理模型开源AI 第3张

进入SFT微调阶段，LongCat-Flash-Thinking的指令遵循和专业领域推理能力得到进一步强化。这一步骤聚焦三大方向：

1、一般推理：LongCat团队整合跨学科高质量问题与答案，覆盖STEM、编程、通用问答及逻辑推理，利用拒绝采样与模型评审确保训练数据的准确性和挑战性。

2、形式化推理：团队设计了一套基于专家迭代框架的数据合成新方法，利用集成Lean4服务器的专家迭代框架，生成经过严格验证的证明过程，从而系统性提升模型的形式化推理能力。

3、Agentic推理：LongCat团队提出了创新的“双路径推理框架”。该框架能比较模型在“有工具”和“无工具”条件下的表现，筛选出仅依赖工具才能解决的高质量问题。

随后，系统自动合成多样化解题轨迹，从简单调用到复杂多步流程，并通过严格评审确保逻辑一致性和工具使用完整性。最终，轨迹被标准化并按复杂度分层，用于课程训练，帮助模型在真实场景中更有效地学习和发展稳健的工具使用能力。

这种中期训练、推理微调的两段式体系，不仅助力LongCat-Flash-Thinking在推理任务中实现性能飞跃，也为后续强化学习奠定了坚实基础。

02.三管齐下优化强化学习，自研DORA框架效率提升超200%

在强化学习中，LongCat-Flash-Thinking采用“三管齐下”方案，从系统、算法和奖励角度，全面提升强化学习的效率与稳定性。

在系统设计上，LongCat团队构建了名为DORA的分布式RL框架，作为RL训练的基石。DORA支持异步训练与灵活加速器调度，既保证稳定性，又提升效率。

DORA通过流式架构让已完成响应立即进入训练，避免被最长输出拖慢；通过多版本策略确保同一响应由同一模型版本完成，防止推理片段间不一致；再结合弹性角色调度，让不同算力设备灵活切换角色，实现近乎零闲置。

这一机制在大规模算力集群上展现高效能：在数万张加速卡上，LongCat-Flash的RL训练速度达到传统同步方式的3倍以上，FLOPs（浮点运算数）投入约为预训练阶段的20%。

算法层面，团队对经典PPO方法进行改良。异步训练常因推理引擎与训练引擎的数值差异，或旧版本策略生成数据过多而导致模型收敛不稳。

为此，研究人员引入截断重要性采样来缓解引擎差异带来的误差，并设计裁剪机制，对正负样本设置不同阈值。这些调整显著提高了推理任务下的稳定性。

奖励机制是RL的方向盘。对于写作、问答等无法直接验证的任务，团队训练了判别式奖励模型，基于人机联合标注数据，学会判断优劣偏好。

而在数学与编程等可验证场景，则引入生成式奖励模型（GenRM），它不仅能判断对错，还能提供推理链路，做到有理有据。在编程任务中，团队还搭建了分布式沙箱系统，支持数百万次并发代码执行，覆盖20多种编程语言。

最后，LongCat团队提出三阶段训练配方：领域平行训练、模型融合、通用RL微调。团队先分别训练数学、编程、智能体等专家模型，再通过参数融合技术合并为统一大模型，最后用多样化数据进行通用微调，避免融合后性能退化，确保安全性、泛化性和实用性。

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破美团 LongCat-Flash-Thinking 推理模型开源AI 第4张

融合后的模型性能优于专家模型

03.MATH-500得分接近满分，工具使用后性价比显著提高

LongCat-Flash-Thinking在多领域基准测试中表现突出。

在通用能力上，LongCat-Flash-Thinking在MMLU-Redux上取得89.3%的成绩，与业内多款顶级开源模型水准相当，但与OpenAI-o3相比仍有差距。

数学推理是该模型的亮点之一。其在MATH-500中获99.2%的高分，几乎达到满分。在更具挑战性的AIME与HMMT等竞赛级任务中，同样展现接近甚至超越GPT-5与Qwen3的表现，凸显其复杂多步推理的强大能力。

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破美团 LongCat-Flash-Thinking 推理模型开源AI 第5张

在逻辑与一般推理方面，该模型在ARC-AGI上达到50.3%，超过OpenAI-o3与Gemini 2.5-Pro。同时，它在解谜任务ZebraLogic上得分高达95.5%，并在数独测试Sudoku-Bench上远超大部分模型，显示出色的结构化推理能力。

编程能力方面，LongCat-Flash-Thinking在动态编程测试LiveCodeBench中取得79.4%的分数，紧追GPT-5，远超开源同类模型。

值得注意的是，LongCat-Flash-Thinking模型在工具增强推理能力上表现优异。例如，它在模拟预定飞机票的τ²-Bench-Airline中，实现67.5%的最佳成绩，并在SWE-Bench、BFCL等任务上保持强劲竞争力。

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破美团 LongCat-Flash-Thinking 推理模型开源AI 第6张

启用外部工具后，其在AIME-25基准测试中的准确率保持不变，但平均token消耗减少近65%，验证了智能体系统在效率与性能间实现平衡。

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破美团 LongCat-Flash-Thinking 推理模型开源AI 第7张

在定理证明领域，LongCat-Flash-Thinking在MiniF2F测试中得分达67.6%，比次优模型高出18%，奠定其在形式化数学推理上的领先地位。

最后，在安全性上，LongCat-Flash-Thinking在有害内容、犯罪、虚假信息及隐私四类风险测试中均获安全性最高分。

04.结语：切入真实场景，美团探索推理大模型落地路径

LongCat团队表示，通过开源LongCat-Flash-Thinking，他们希望进一步推动高效RL训练、原生Agent推理等方面的研究。

从论文技术细节中，我们看到LongCat有针对性地提升了模型在工具使用、指令遵循和安全性等方面的表现。

结合美团近期在面向消费者的Agent产品、AI搜索产品等领域的动态，可以预见，这些新模型或将有针对性地服务于美团自身业务，带来更智能的用户体验。

免费vps 阿里云服务器云服务器

本文由主机测评网于2026-01-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260114223.html

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破

01.通过课程学习逐步构建能力，Agent与形式化推理能力显著增强

02.三管齐下优化强化学习，自研DORA框架效率提升超200%

03.MATH-500得分接近满分，工具使用后性价比显著提高

04.结语：切入真实场景，美团探索推理大模型落地路径

OpenAI联手立讯精密打造AI硬件，潮汕女掌门身价暴涨引爆涨停潮

抖音电商升级诱导第三方规则：处罚全面加码，9月29日生效

美团开源推理模型LongCat-Flash-Thinking，训练效率与性能双重突破

01.通过课程学习逐步构建能力，Agent与形式化推理能力显著增强

02.三管齐下优化强化学习，自研DORA框架效率提升超200%

03.MATH-500得分接近满分，工具使用后性价比显著提高

04.结语：切入真实场景，美团探索推理大模型落地路径

OpenAI联手立讯精密打造AI硬件，潮汕女掌门身价暴涨引爆涨停潮

抖音电商升级诱导第三方规则：处罚全面加码，9月29日生效

相关文章