当前位置：首页 > 科技资讯 > 正文

美团开源LongCat-Video：统一架构支持多种视频生成能力

主机测评网
科技资讯
2026-05-07
625

智东西10月27日报道，美团于10月25日发布了其最新成果——首款视频生成大模型LongCat-Video。这款模型旨在应对多任务视频生成场景，以统一架构实现文生视频、图生视频及视频续写三大功能。

与单一任务训练的模型不同，LongCat-Video通过多任务联合训练机制，能在同一框架下处理零帧、单帧及多帧条件输入。

此外，LongCat-Video突破了长视频生成的挑战，原生支持输出长达5分钟的视频。在保持高时间一致性与视觉稳定性的同时，该模型有效解决了常见模型在长时序生成中易出现的画面漂移、色彩偏移等问题。

美团开源LongCat-Video：统一架构支持多种视频生成能力 LongCat-Video 视频生成多任务训练高效推理第1张

在推理效率方面，LongCat-Video通过“粗到细”两阶段生成策略，显著提升推理速度。先生成480p、15fps的视频，再细化至720p、30fps。结合块稀疏注意力机制和模型蒸馏，该模型将高分辨率生成的计算开销显著降低，视频生成的推理速度提升至原来的10.1倍，提速幅度超过900%。

后训练阶段，团队采用多奖励强化学习（RLHF）优化方案，利用组相对策略优化（GRPO）方法综合多维度奖励信号，进一步提升模型在多样化任务下的表现。

在VBench公开基准测试中，LongCat-Video总得分仅次于Veo3和Vidu Q1。值得注意的是，LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一，超越了多个闭源模型。

美团开源LongCat-Video：统一架构支持多种视频生成能力 LongCat-Video 视频生成多任务训练高效推理第2张

目前，美团已同步开放LongCat-Video的代码、模型权重及关键模块，并发布了技术报告。

项目主页：https://meituan-longcat.github.io/LongCat-Video/

模型地址：https://huggingface.co/meituan-longcat/LongCat-Video

技术报告：https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf

一、三步打造高质量训练数据，整体压缩率高达4×16×16倍

美团认为，“世界模型”将成为下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统，世界模型赋予AI“看见”世界运行本质的能力。

视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识，AI得以在数字空间中模拟、推演乃至预演真实世界的运行。

为打造LongCat-Video，美团团队构建了数据处理与标注体系。在数据预处理阶段，通过多源视频采集、去重、镜头切分及黑边裁剪，确保视频片段的质量与多样性。随后在数据标注阶段，为视频添加多维度属性，并建立元数据数据库以支持灵活数据筛选。此外，团队还基于其他模型进行视频内容、镜头语言及视觉风格标注，并通过中英双语翻译与摘要生成实现文本增强。

最终，通过文本嵌入聚类对视频内容进行无监督分类与均衡优化，为模型训练提供高质量、多样化的视频数据基础。

美团开源LongCat-Video：统一架构支持多种视频生成能力 LongCat-Video 视频生成多任务训练高效推理第3张