美团的龙猫大模型迎来重大升级,现已具备先进的推理思考能力!
智东西9月22日消息,美团在AI开源赛道持续加速推进。在首次开源大语言模型仅24天后,美团再次开源了其自主研发的推理模型LongCat-Flash-Thinking。
与基础模型LongCat-Flash类似,高效能同样是LongCat-Flash-Thinking的核心优势。美团技术报告披露,该模型基于自研的DORA强化学习基础设施训练,训练速度提升至原先的3倍以上,增幅超过200%。模型重点增强了形式推理与Agent推理任务,借助工具后推理效率大幅提高,例如在AIME-25基准测试中,平均token消耗降低64.5%。
LongCat-Flash-Thinking在多个领域基准测试中表现卓越:
在通用问答、数学推理、通用推理等相关评测中,它与GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等模型性能持平;
该模型还在安全、形式化定理证明等领域的多项基准测试中,显著领先上述4款推理模型,并在权威Agent工具调用基准测试τ²-Bench中,超越除GPT-5-Thinking外的所有参评模型。
目前,LongCat-Flash-Thinking模型已开源至GitHub、Hugging Face等平台,技术报告同步发布,用户可通过体验链接直接使用。但在实际体验中,模型推理和回答长度常超出链接限制,导致答案不完整。
开源地址:
https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
https://github.com/meituan-longcat/LongCat-Flash-Thinking
体验链接:
https://longcat.chat/
在模型预训练阶段,LongCat团队采用课程学习方法,让模型先夯实基础,再专项突破,最终构建出广度与深度兼备的推理能力。
LongCat-Flash-Thinking基于LongCat-Flash训练而成,经历了推理增强的中期训练(Mid-training)和面向推理的有监督微调(SFT)。
研究团队专门构建了高难度推理训练集,涵盖数学、物理、化学及编程问题,并通过数据比例控制,确保模型在强化逻辑推理的同时不丢失通用能力。
实验表明,这一阶段显著扩展了模型的“推理边界”:在AIME、BeyondAIME和LiveCodeBench等基准上,单步准确率和高采样准确率均大幅提升。
进入SFT微调阶段,LongCat-Flash-Thinking的指令遵循和专业领域推理能力得到进一步强化。这一步骤聚焦三大方向:
1、一般推理:LongCat团队整合跨学科高质量问题与答案,覆盖STEM、编程、通用问答及逻辑推理,利用拒绝采样与模型评审确保训练数据的准确性和挑战性。
2、形式化推理:团队设计了一套基于专家迭代框架的数据合成新方法,利用集成Lean4服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。
3、Agentic推理:LongCat团队提出了创新的“双路径推理框架”。该框架能比较模型在“有工具”和“无工具”条件下的表现,筛选出仅依赖工具才能解决的高质量问题。
随后,系统自动合成多样化解题轨迹,从简单调用到复杂多步流程,并通过严格评审确保逻辑一致性和工具使用完整性。最终,轨迹被标准化并按复杂度分层,用于课程训练,帮助模型在真实场景中更有效地学习和发展稳健的工具使用能力。
这种中期训练、推理微调的两段式体系,不仅助力LongCat-Flash-Thinking在推理任务中实现性能飞跃,也为后续强化学习奠定了坚实基础。
在强化学习中,LongCat-Flash-Thinking采用“三管齐下”方案,从系统、算法和奖励角度,全面提升强化学习的效率与稳定性。
在系统设计上,LongCat团队构建了名为DORA的分布式RL框架,作为RL训练的基石。DORA支持异步训练与灵活加速器调度,既保证稳定性,又提升效率。
DORA通过流式架构让已完成响应立即进入训练,避免被最长输出拖慢;通过多版本策略确保同一响应由同一模型版本完成,防止推理片段间不一致;再结合弹性角色调度,让不同算力设备灵活切换角色,实现近乎零闲置。
这一机制在大规模算力集群上展现高效能:在数万张加速卡上,LongCat-Flash的RL训练速度达到传统同步方式的3倍以上,FLOPs(浮点运算数)投入约为预训练阶段的20%。
算法层面,团队对经典PPO方法进行改良。异步训练常因推理引擎与训练引擎的数值差异,或旧版本策略生成数据过多而导致模型收敛不稳。
为此,研究人员引入截断重要性采样来缓解引擎差异带来的误差,并设计裁剪机制,对正负样本设置不同阈值。这些调整显著提高了推理任务下的稳定性。
奖励机制是RL的方向盘。对于写作、问答等无法直接验证的任务,团队训练了判别式奖励模型,基于人机联合标注数据,学会判断优劣偏好。
而在数学与编程等可验证场景,则引入生成式奖励模型(GenRM),它不仅能判断对错,还能提供推理链路,做到有理有据。在编程任务中,团队还搭建了分布式沙箱系统,支持数百万次并发代码执行,覆盖20多种编程语言。
最后,LongCat团队提出三阶段训练配方:领域平行训练、模型融合、通用RL微调。团队先分别训练数学、编程、智能体等专家模型,再通过参数融合技术合并为统一大模型,最后用多样化数据进行通用微调,避免融合后性能退化,确保安全性、泛化性和实用性。
融合后的模型性能优于专家模型
LongCat-Flash-Thinking在多领域基准测试中表现突出。
在通用能力上,LongCat-Flash-Thinking在MMLU-Redux上取得89.3%的成绩,与业内多款顶级开源模型水准相当,但与OpenAI-o3相比仍有差距。
数学推理是该模型的亮点之一。其在MATH-500中获99.2%的高分,几乎达到满分。在更具挑战性的AIME与HMMT等竞赛级任务中,同样展现接近甚至超越GPT-5与Qwen3的表现,凸显其复杂多步推理的强大能力。
在逻辑与一般推理方面,该模型在ARC-AGI上达到50.3%,超过OpenAI-o3与Gemini 2.5-Pro。同时,它在解谜任务ZebraLogic上得分高达95.5%,并在数独测试Sudoku-Bench上远超大部分模型,显示出色的结构化推理能力。
编程能力方面,LongCat-Flash-Thinking在动态编程测试LiveCodeBench中取得79.4%的分数,紧追GPT-5,远超开源同类模型。
值得注意的是,LongCat-Flash-Thinking模型在工具增强推理能力上表现优异。例如,它在模拟预定飞机票的τ²-Bench-Airline中,实现67.5%的最佳成绩,并在SWE-Bench、BFCL等任务上保持强劲竞争力。
启用外部工具后,其在AIME-25基准测试中的准确率保持不变,但平均token消耗减少近65%,验证了智能体系统在效率与性能间实现平衡。
在定理证明领域,LongCat-Flash-Thinking在MiniF2F测试中得分达67.6%,比次优模型高出18%,奠定其在形式化数学推理上的领先地位。
最后,在安全性上,LongCat-Flash-Thinking在有害内容、犯罪、虚假信息及隐私四类风险测试中均获安全性最高分。
LongCat团队表示,通过开源LongCat-Flash-Thinking,他们希望进一步推动高效RL训练、原生Agent推理等方面的研究。
从论文技术细节中,我们看到LongCat有针对性地提升了模型在工具使用、指令遵循和安全性等方面的表现。
结合美团近期在面向消费者的Agent产品、AI搜索产品等领域的动态,可以预见,这些新模型或将有针对性地服务于美团自身业务,带来更智能的用户体验。
本文由主机测评网于2026-01-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260114223.html