当前位置:首页 > 科技资讯 > 正文

Luma AI:视频生成新纪元:推理与多模态大一统

文|富充、周鑫雨

编辑|苏建勋

“若2026年仍聚焦于视频生成的迭代,那将远远不够。”Luma AI的首席科学家宋佳铭,在《智能涌现》中作出了这一预判。

成立于2021年的Luma AI,是美国视频生成领域的明星企业。《智能涌现》获悉,近期Luma AI已按照40亿美元估值,完成了9亿美元的C轮融资。本轮融资由沙特公共投资基金(PIF)旗下机构HUMAIN领投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股东均大额加注。

当视频生成类AI公司还在追求更长的时长和更好的画质时,宋佳铭具体阐述了他的“异见”:“真正的提升,不是画面本身,而是模型对现实世界的理解与推理能力。”

他以影视制作现场为例:在影视制作中,若导演需要补拍一个遗漏的俯视镜头,传统视频生成模型只是根据提示词生成相关内容,却容易存在与前后画面不符的细节。

而推理模型则能理解已有片段的场景空间、角色位置与镜头逻辑,从而制作出在物理上更合理、衔接更丝滑的视频。

正因如此,推理视频生成模型被广泛应用于专业影视与广告等领域,成为其变现的基础。

“Sora 2引发的大众玩梗热潮,并不意味着视频模型的To C时代已经到来。”宋佳铭解释了视频生成模型现阶段的商业情况。

实现视频生成模型更强推理能力的关键,是采用语言、图像与视频数据,训练“多模态大一统”模型。因为多模态融合将为模型提供更丰富、多元的数据量,推动模型能力从“生成”升级到“理解”。

这一路径已在图像生成领域得到验证:2024年,业内还对多模态架构存在分歧,而进入2025年后,图片生成模型已基本将文生图、图编辑等任务整合进统一模型。竞争焦点已从架构设计转向高质量的数据收集。

宋佳铭认为,视频生成模型明年也将复现同样的收敛过程。

不断预测下一步的技术和商业化方向,并突破自己,是Luma AI一直以来的追求。

这家2021年成立的公司最初从3D生成起步,于2023年底转向市场空间更大的视频生成模型。

2024年6月,Luma AI推出面向AI与设计“小白”的视频生成模型Dream Machine,开启C端市场探索。Dream Machine凭借“零推广费”在4天内吸纳百万用户,被业内称为“能与Sora叫板的视频生成模型”。

不过,Luma并未止步于C端的热度。今年以来,Luma AI逐步将重心转向付费意愿更强、需求更刚性的B端专业用户——影视、广告、内容制作机构等。

今年9月,Luma AI推出全球首个视频推理大模型Ray 3。

但在近期的专访上,宋佳铭向《智能涌现》给出了新的判断:Ray 3很可能是Luma最后一代传统视频生成模型。公司已经把“多模态大一统模型”确立为下一阶段的核心方向。

这一目标也需要更大的算力和资金支持。

Luma AI本轮投资方之一的HUMAIN正在沙特建设名为“Project Halo”的2GW人工智能超算集群。Luma AI将作为核心客户采用该算力,用于训练下一代多模态世界模型,进一步提升视频推理与大一统模型的能力。

从3D生成起家,到凭借Dream Machine在C端引起关注,再到如今通过布局推理、多模态大一统模型更好地服务B端专业客户。Luma AI的每次关键抉择都在其原本业务基础上向外扩展一步。

关于当前视频生成模型的行业观察及未来预测,宋佳铭在专访中详细阐述了他的观点。以下内容来自对话,经作者整理:

Luma AI:视频生成新纪元:推理与多模态大一统 AI 视频生成模型 多模态大一统 推理能力 第1张

视频生成模型的未来:推理能力、多模态大一统

智能涌现:你曾说过“Ray 3可能是Luma AI最后一代传统的文生视频模型”,如何理解这句话?

宋佳铭:我的判断是,未来的大模型不会再把图片、视频、音频、文本视为孤立的模态,而是统一处理。这就是“多模态大一统”模型。

多模态大一统带来的数据量增长,将提升视频生成模型的推理能力,有助于更合理的视频处理及用户自动甄别问题。

智能涌现:能否举例说明视频推理模型与传统模型的差异?

宋佳铭:以拍戏为例。剧组会同时架多个机位拍摄不同角度。若导演发现遗漏一个俯视镜头需AI补拍时:

传统模型可能会“发挥想象力”生成一个俯视镜头,但细节可能与之前不一致。而我们的推理模型会理解和推理不同机位素材的对应关系及位置关系,生成合理且无缝衔接的视频。

To C时代还没到来

智能涌现:Sora 2和Nano Banana的出圈给模型公司什么启示?

宋佳铭:重要的是从产品角度设计使用场景及驱动点,让技术特点成为传播爆点。

Luma 的路线:模型迭代、融资与人才

智能涌现:这次C轮融资拿到9亿美元资金后,你们会如何使用这笔资金?

宋佳铭:主要投入算力和人才建设。我们需扩充工程和系统团队以支撑大规模多模态模型的训练和推理。