智东西10月27日报道,美团于10月25日发布了其最新成果——首款视频生成大模型LongCat-Video。这款模型旨在应对多任务视频生成场景,以统一架构实现文生视频、图生视频及视频续写三大功能。
与单一任务训练的模型不同,LongCat-Video通过多任务联合训练机制,能在同一框架下处理零帧、单帧及多帧条件输入。
此外,LongCat-Video突破了长视频生成的挑战,原生支持输出长达5分钟的视频。在保持高时间一致性与视觉稳定性的同时,该模型有效解决了常见模型在长时序生成中易出现的画面漂移、色彩偏移等问题。
在推理效率方面,LongCat-Video通过“粗到细”两阶段生成策略,显著提升推理速度。先生成480p、15fps的视频,再细化至720p、30fps。结合块稀疏注意力机制和模型蒸馏,该模型将高分辨率生成的计算开销显著降低,视频生成的推理速度提升至原来的10.1倍,提速幅度超过900%。
后训练阶段,团队采用多奖励强化学习(RLHF)优化方案,利用组相对策略优化(GRPO)方法综合多维度奖励信号,进一步提升模型在多样化任务下的表现。
在VBench公开基准测试中,LongCat-Video总得分仅次于Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一,超越了多个闭源模型。
目前,美团已同步开放LongCat-Video的代码、模型权重及关键模块,并发布了技术报告。
项目主页:https://meituan-longcat.github.io/LongCat-Video/
模型地址:https://huggingface.co/meituan-longcat/LongCat-Video
技术报告:https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf
美团认为,“世界模型”将成为下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI“看见”世界运行本质的能力。
视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行。
为打造LongCat-Video,美团团队构建了数据处理与标注体系。在数据预处理阶段,通过多源视频采集、去重、镜头切分及黑边裁剪,确保视频片段的质量与多样性。随后在数据标注阶段,为视频添加多维度属性,并建立元数据数据库以支持灵活数据筛选。此外,团队还基于其他模型进行视频内容、镜头语言及视觉风格标注,并通过中英双语翻译与摘要生成实现文本增强。
最终,通过文本嵌入聚类对视频内容进行无监督分类与均衡优化,为模型训练提供高质量、多样化的视频数据基础。
LongCat-Video采用三阶段训练流程。通过Flow Matching框架提升训练稳定性与效率。训练采用渐进式预训练策略,从低分辨率图像到高分辨率多任务视频逐步学习。随后在监督微调阶段,利用高质量、多样化数据集进行精调。最后通过基于组相对策略优化的强化学习引入人类偏好优化。
美团团队通过“统一任务框架”让三种任务共用同一套网络。模型通过识别输入中“条件帧”的数量自动判断任务类型:零帧时执行文本生成视频,一帧时执行图像生成视频,多帧时则执行视频续写。这种机制不仅降低了模型复杂度,还提升了整体表现。
美团团队分享了LongCat-Video的多个生成案例。在文生视频任务中,LongCat-Video能根据提示词准确还原画面。在内部评测体系中,美团构建了一套覆盖文本生成视频与图像生成视频两大核心任务的基准。
美团称,LongCat-Video是其开发“世界模型”的第一步。未来计划更好地建模物理知识,集成多模态记忆。在机器人、自动驾驶(无人车)领域的业务布局中,这款模型有望产生协同效应。
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543411.html