当前位置:首页 > 科技资讯 > 正文

美团LongCat团队开源视频生成模型LongCat-Video,实现多任务高效视频生成

美团LongCat团队开源视频生成模型LongCat-Video,实现多任务高效视频生成 视频生成模型  LongCat-Video 开源AI Diffusion Transformer 第1张

10月27日,美团旗下的LongCat团队正式宣布开源其视频生成模型LongCat-Video。该模型基于统一架构,能够同时支持文本生成视频、图像生成视频以及视频续写等核心任务,在内部评估和公开基准测试中均取得了开源领域的领先成果。

美团LongCat团队开源视频生成模型LongCat-Video,实现多任务高效视频生成 视频生成模型  LongCat-Video 开源AI Diffusion Transformer 第2张

美团LongCat团队开源视频生成模型LongCat-Video,实现多任务高效视频生成 视频生成模型  LongCat-Video 开源AI Diffusion Transformer 第3张

▲LongCat-Video视频生成模型在文本生成和图像生成视频任务上达到开源SOTA水平(资料图)

技术报告显示,LongCat-Video采用Diffusion Transformer架构,通过“条件帧数量”来区分任务:文本生成视频无需输入条件帧,图像生成视频输入一帧参考图,视频续写则依赖多帧前序内容,无需额外模型调整即可覆盖三类任务。为提升长时序生成能力,模型在预训练阶段引入了原生视频续写任务,可稳定生成分钟级长视频,并在跨帧时序一致性和物理运动合理性方面进行了优化,以减少色彩漂移、画质衰减和动作断裂等问题。

在效率方面,模型结合块稀疏注意力与条件token缓存机制,降低了长序列推理冗余;在处理93帧及以上序列时,能在效率与生成质量间保持平衡。针对高分辨率、高帧率场景,模型采用“二阶段粗到精结合BSA与蒸馏”策略,推理速度较基线提升约10.1倍。参数上,LongCat-Video基座模型约136亿参数,在文本对齐、运动连贯性等评测维度表现突出,并在VBench等公开基准测试中成绩显著。

美团LongCat团队开源视频生成模型LongCat-Video,实现多任务高效视频生成 视频生成模型  LongCat-Video 开源AI Diffusion Transformer 第4张

LongCat团队将此次发布视为其“世界模型”方向探索的重要一步,相关代码与模型已全面开源。以上结论与性能数据均基于团队技术报告与发布材料。