当前位置:首页 > 科技资讯 > 正文

AI新纪元:Emu3.5开启多模态世界模型新篇章

【导读】AI技术再突破!智源研究院发布Emu3.5,以340亿参数,基于790年长视频数据,实现即时3D世界生成,推理速度提升20倍。

2025年,AI巨头们纷纷聚焦于「世界模型」的打造,以探索更深层次的智能。

谷歌的Genie 3,仅凭一句话就能生成720p实时模拟新世界,被网友誉为「游戏引擎2.0时代」的先锋。

同时,李飞飞World Labs团队的RTFM也惊艳亮相,仅用H100渲染出令人惊叹的3D世界。

AI新纪元:Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态 世界模型 自回归架构 第1张

此外,Meta FAIR的「代码世界模型」(CWM)、Runway的「通用世界模型」(GWM)以及特斯拉的神经网络模拟器等,都在积极构建自己的AI世界。

多模态领域的「世界模型」成为了这些巨头们加码的核心点。

AI新纪元:Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态 世界模型 自回归架构 第2张

AI大佬们如李飞飞、LeCun等坚信,仅凭语言,AI无法完全复制人类智能,需要理解和模拟物理世界。

为此,他们致力于构建能够模仿人类心智模型的「世界模型」,以预测和解释世界。

上周,北京智源研究院(BAAI)正式发布了其悟界·Emu系列的最新成果——Emu3.5。

智源研究院院长王仲远博士在发布会上称其为「开启多模态世界大模型新纪元」的里程碑。

王仲远表示:「并不一定所有的大模型技术路线都要完全跟随别人走过的路,我们也在开创一些新的技术路径。Emu系列是我们自己走出来的技术路线,我们是引领性的。」

与当前主流的模块拼接式多模态模型不同,Emu3.5回归「第一性原理」,像人类一样从连续、长时程的视觉经验中学习,用统一的自回归架构实现了对多模态世界的原生理解与生成。

王仲远表示:「通过悟界·Emu3.5,我们验证了自回归架构实现多模态理解与生成大一统的可行性。从Emu3到Emu3.5,我们证明了多模态也存在一个Scaling的范式。」

这个340亿参数的模型,在长文本渲染、复杂图像编辑、视觉故事生成等多个维度上表现出色,让业界惊叹「Wow」。更重要的是,它展现了对物理世界动态、因果、时空、逻辑的深刻理解,预示着AI正加速从数字世界迈向物理世界。

AI新纪元:Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态 世界模型 自回归架构 第3张

智源还公开了长达45页的详尽技术报告,详细阐述了其数据处理、模型架构、训练方式及推理加速等技术细节。

项目主页:https://zh.emu.world

技术报告:https://arxiv.org/pdf/2510.26583

这背后是智源对「引领人工智能原始创新」的坚持和对未来技术路线的自信。

悟界·Emu3.5为全球大模型竞赛中的几个根本性问题提供了来自中国的原创解法,包括多模态的统一、世界模型的学习内容、如何实现规模化以及如何落地等。

从Next-Token到Next-State:原生多模态学习新范式

王仲远在发布会上反复强调:「人类的学习,不是从文本开始的。」婴儿首先通过视觉感知世界,通过观察、交互逐步理解物理规律和因果关系,语言在此基础上发展。

当前的大语言模型(LLM)在耗尽互联网文本数据后增长已显疲态。而多模态领域的技术路线尚未收敛。主流的视频和图像生成模型大多采用混合架构,理解和生成模块分离,难以实现统一的智能。

Emu系列从诞生之初就选择了另一条更艰难但更本质的道路——原生多模态。

Emu3.5继承并发展了这一理念,采用了一个统一的预测下一个状态(Next-State Prediction)范式。

与LLM预测下一个文本Token类似,Emu3.5将图像、文本、乃至动作指令都「Token化」,置于一个统一的序列中,然后用一个单一的、端到端的自回归Transformer模型来预测序列中的下一个Token。

这种架构的统一性和可扩展性显而易见。它彻底打破了理解与生成的壁垒,并能完美复用为LLM构建的已成熟的基础设施。

第三种Scaling范式:790年长视频数据与大规模多模态RL

海量且高质量的数据是骨架之外的血肉。Emu3.5的训练数据量惊人——超过13万亿多模态Token。

其核心是累计时长达790年的互联网长视频数据,涵盖了纪录片、教学视频、Vlog、游戏动画等。

为了消化这些海量数据,智源团队构建了一套复杂的自动化数据处理流水线。在训练上,Emu3.5的路径清晰而坚定:大规模预训练和大规模多模态强化学习(RL)。

黑科技DiDA:自回归模型推理速度飙升20倍

为了提升自回归模型的推理速度,Emu3.5团队研发了名为离散扩散自适应(Discrete Diffusion Adaptation, DiDA)的黑科技。

DiDA的核心思想是在模型完成大规模预训练和后训练后,通过一个轻量级的「适应」阶段,将其从「逐个Token预测」的模式转换为「并行生成」的模式。

从图像编辑到具身操作:开源最优

在效果上,Emu3.5不仅生成和编辑高质量图片的能力令人惊叹,其高层语义理解、数字与空间理解、视角变换以及长时序、高一致性的「世界学习」能力也遥遥领先。

AI新纪元:Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态 世界模型 自回归架构 第4张

AI新纪元:Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态 世界模型 自回归架构 第5张