美团LongCat团队开源视频生成模型LongCat-Video，实现多任务高效视频生成

主机测评网
科技资讯
2026-01-14
927

美团LongCat团队开源视频生成模型LongCat-Video，实现多任务高效视频生成视频生成模型 LongCat-Video 开源AI Diffusion Transformer 第1张

10月27日，美团旗下的LongCat团队正式宣布开源其视频生成模型LongCat-Video。该模型基于统一架构，能够同时支持文本生成视频、图像生成视频以及视频续写等核心任务，在内部评估和公开基准测试中均取得了开源领域的领先成果。

美团LongCat团队开源视频生成模型LongCat-Video，实现多任务高效视频生成视频生成模型 LongCat-Video 开源AI Diffusion Transformer 第2张

美团LongCat团队开源视频生成模型LongCat-Video，实现多任务高效视频生成视频生成模型 LongCat-Video 开源AI Diffusion Transformer 第3张

▲LongCat-Video视频生成模型在文本生成和图像生成视频任务上达到开源SOTA水平（资料图）

技术报告显示，LongCat-Video采用Diffusion Transformer架构，通过“条件帧数量”来区分任务：文本生成视频无需输入条件帧，图像生成视频输入一帧参考图，视频续写则依赖多帧前序内容，无需额外模型调整即可覆盖三类任务。为提升长时序生成能力，模型在预训练阶段引入了原生视频续写任务，可稳定生成分钟级长视频，并在跨帧时序一致性和物理运动合理性方面进行了优化，以减少色彩漂移、画质衰减和动作断裂等问题。

在效率方面，模型结合块稀疏注意力与条件token缓存机制，降低了长序列推理冗余；在处理93帧及以上序列时，能在效率与生成质量间保持平衡。针对高分辨率、高帧率场景，模型采用“二阶段粗到精结合BSA与蒸馏”策略，推理速度较基线提升约10.1倍。参数上，LongCat-Video基座模型约136亿参数，在文本对齐、运动连贯性等评测维度表现突出，并在VBench等公开基准测试中成绩显著。

美团LongCat团队开源视频生成模型LongCat-Video，实现多任务高效视频生成视频生成模型 LongCat-Video 开源AI Diffusion Transformer 第4张