当前位置:首页 > 科技资讯 > 正文

美团LongCat团队发布开源视频生成模型,引领AI新纪元

美团LongCat团队发布开源视频生成模型,引领AI新纪元 LongCat-Video 开源 视频生成 SOTA 第1张

10月27日,美团 LongCat 团队发布了其最新的视频生成模型 LongCat-Video,并宣布将其开源。该模型在统一的架构下,能够同时处理文本生成视频(Text-to-Video)、图像生成视频(Image-to-Video)以及视频续写等基础任务,并在内部及公开基准测试中取得了领先的开源成果。

美团LongCat团队发布开源视频生成模型,引领AI新纪元 LongCat-Video 开源 视频生成 SOTA 第2张

美团LongCat团队发布开源视频生成模型,引领AI新纪元 LongCat-Video 开源 视频生成 SOTA 第3张

▲LongCat-Video在文生、图生视频任务上达到开源SOTA水平(资料图)

据技术报告,LongCat-Video基于Diffusion Transformer(DiT)架构,通过“条件帧数量”来区分不同的任务。其中,文本生成视频无需输入条件帧,图像生成视频则输入一帧参考图,而视频续写则依赖于多帧前序内容,无需额外的模型改造即可覆盖这三类任务。

为了提升长时序的生成能力,该模型在预训练阶段引入了原生的视频续写任务。团队表示,该模型能够稳定生成分钟级别的长视频,并在跨帧时序一致性以及物理运动合理性方面进行了针对性的优化,从而减少了色彩漂移、画质衰减以及动作断裂等问题。

在效率方面,该模型结合了块稀疏注意力(BSA)与条件token缓存机制,以降低长序列推理的冗余。据称,在处理93帧及以上的序列时,该模型能够在效率与生成质量之间保持稳定的平衡。针对高分辨率、高帧率场景,该模型采用了“二阶段粗到精(C2F)+ BSA + 蒸馏”的组合策略,据报告称,其推理速度较基线提升了约10.1倍。

在参数规模方面,LongCat-Video基座模型的参数数量约为136亿。其评测覆盖了文本对齐、图像对齐、视觉质量、运动质量与整体质量等多个维度。团队表示,该模型在文本对齐与运动连贯等指标上表现突出,并在公开基准VBench等测试中取得了优异的成绩。

美团LongCat团队发布开源视频生成模型,引领AI新纪元 LongCat-Video 开源 视频生成 SOTA 第4张

LongCat团队将此次发布视为其“世界模型(World Model)”方向探索的重要一步。目前,相关代码与模型已对外开源。上述结论与性能表述均引自团队的技术报告与发布材料。