美团LongCat团队发布开源视频生成模型，引领AI新纪元

主机测评网
科技资讯
2026-05-07
655

美团LongCat团队发布开源视频生成模型，引领AI新纪元 LongCat-Video 开源视频生成 SOTA 第1张

10月27日，美团 LongCat 团队发布了其最新的视频生成模型 LongCat-Video，并宣布将其开源。该模型在统一的架构下，能够同时处理文本生成视频（Text-to-Video）、图像生成视频（Image-to-Video）以及视频续写等基础任务，并在内部及公开基准测试中取得了领先的开源成果。

美团LongCat团队发布开源视频生成模型，引领AI新纪元 LongCat-Video 开源视频生成 SOTA 第2张

美团LongCat团队发布开源视频生成模型，引领AI新纪元 LongCat-Video 开源视频生成 SOTA 第3张

▲LongCat-Video在文生、图生视频任务上达到开源SOTA水平（资料图）

据技术报告，LongCat-Video基于Diffusion Transformer（DiT）架构，通过“条件帧数量”来区分不同的任务。其中，文本生成视频无需输入条件帧，图像生成视频则输入一帧参考图，而视频续写则依赖于多帧前序内容，无需额外的模型改造即可覆盖这三类任务。

为了提升长时序的生成能力，该模型在预训练阶段引入了原生的视频续写任务。团队表示，该模型能够稳定生成分钟级别的长视频，并在跨帧时序一致性以及物理运动合理性方面进行了针对性的优化，从而减少了色彩漂移、画质衰减以及动作断裂等问题。

在效率方面，该模型结合了块稀疏注意力（BSA）与条件token缓存机制，以降低长序列推理的冗余。据称，在处理93帧及以上的序列时，该模型能够在效率与生成质量之间保持稳定的平衡。针对高分辨率、高帧率场景，该模型采用了“二阶段粗到精（C2F）+ BSA + 蒸馏”的组合策略，据报告称，其推理速度较基线提升了约10.1倍。

在参数规模方面，LongCat-Video基座模型的参数数量约为136亿。其评测覆盖了文本对齐、图像对齐、视觉质量、运动质量与整体质量等多个维度。团队表示，该模型在文本对齐与运动连贯等指标上表现突出，并在公开基准VBench等测试中取得了优异的成绩。

美团LongCat团队发布开源视频生成模型，引领AI新纪元 LongCat-Video 开源视频生成 SOTA 第4张