美团龙猫大模型,AI推理新纪元!
智东西9月22日报道,美团在AI开源领域持续加速。继开源首款大语言模型后仅24天,美团又开源了其自研推理模型LongCat-Flash-Thinking。
该模型与基础模型LongCat-Flash类似,以效率为核心。美团透露,LongCat-Flash-Thinking在自研的DORA强化学习基础设施上训练,直接将训练速度提升至原来的3倍,增幅超过200%。该模型优化了形式推理和Agent推理任务,例如,在AIME-25基准测试中,平均token消耗减少64.5%。
LongCat-Flash-Thinking在多领域基准测试中表现卓越:在通用问答、数学推理、通用推理的相关测试中,它与GPT-5-Thinking等模型基本持平;在安全、形式化定理证明等领域,它大幅领先上述模型,并在权威Agent工具调用基准测试τ²-Bench中,超越所有参评模型(除GPT-5-Thinking外)。
目前,LongCat-Flash-Thinking模型已开源至GitHub、Hugging Face等平台,相关技术报告也同期发布。用户可在体验链接中直接使用,但需注意模型推理和回答长度可能超出限制。
开源地址:
https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
https://github.com/meituan-longcat/LongCat-Flash-Thinking
体验链接:
https://longcat.chat/
在预训练阶段,LongCat团队采用课程学习方式,让模型先打基础再专项突破。LongCat-Flash-Thinking在LongCat-Flash基础上训练,经历推理增强的中期训练和面向推理的有监督微调。
研究团队构建高难度推理训练集,涵盖STEM、编程等问题,确保模型强化逻辑推理同时不丢失通用能力。实验表明,这一阶段显著拓宽了模型的“推理边界”。
LongCat-Flash-Thinking采用“三管齐下”方案提升强化学习效率与稳定性。DORA框架支持异步训练与灵活加速器调度,保证稳定性和效率。
DORA通过流式架构让已完成响应立即进入训练,多版本策略保证同一响应由同一模型版本完成。在数万张加速卡上,LongCat-Flash的RL训练速度达传统同步方式的3倍以上。
LongCat-Flash-Thinking在数学推理中表现尤为突出,MATH-500得分达99.2%,几乎满分。在AIME与HMMT等竞赛级任务中,也展现出强大能力。
LongCat团队希望通过LongCat-Flash-Thinking推动高效RL训练、原生Agent推理等领域研究。结合美团业务动态,这些新模型或将带来更加智能的用户体验。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441723.html