当前位置：首页 > 科技资讯 > 正文

AI新纪元：Emu3.5开启多模态世界模型新篇章

主机测评网
科技资讯
2026-05-08
864

【导读】AI技术再突破！智源研究院发布Emu3.5，以340亿参数，基于790年长视频数据，实现即时3D世界生成，推理速度提升20倍。

2025年，AI巨头们纷纷聚焦于「世界模型」的打造，以探索更深层次的智能。

谷歌的Genie 3，仅凭一句话就能生成720p实时模拟新世界，被网友誉为「游戏引擎2.0时代」的先锋。

同时，李飞飞World Labs团队的RTFM也惊艳亮相，仅用H100渲染出令人惊叹的3D世界。

AI新纪元：Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态世界模型自回归架构第1张

此外，Meta FAIR的「代码世界模型」（CWM）、Runway的「通用世界模型」（GWM）以及特斯拉的神经网络模拟器等，都在积极构建自己的AI世界。

多模态领域的「世界模型」成为了这些巨头们加码的核心点。

AI新纪元：Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态世界模型自回归架构第2张

AI大佬们如李飞飞、LeCun等坚信，仅凭语言，AI无法完全复制人类智能，需要理解和模拟物理世界。

为此，他们致力于构建能够模仿人类心智模型的「世界模型」，以预测和解释世界。

上周，北京智源研究院（BAAI）正式发布了其悟界·Emu系列的最新成果——Emu3.5。

智源研究院院长王仲远博士在发布会上称其为「开启多模态世界大模型新纪元」的里程碑。

王仲远表示：「并不一定所有的大模型技术路线都要完全跟随别人走过的路，我们也在开创一些新的技术路径。Emu系列是我们自己走出来的技术路线，我们是引领性的。」

与当前主流的模块拼接式多模态模型不同，Emu3.5回归「第一性原理」，像人类一样从连续、长时程的视觉经验中学习，用统一的自回归架构实现了对多模态世界的原生理解与生成。

王仲远表示：「通过悟界·Emu3.5，我们验证了自回归架构实现多模态理解与生成大一统的可行性。从Emu3到Emu3.5，我们证明了多模态也存在一个Scaling的范式。」

这个340亿参数的模型，在长文本渲染、复杂图像编辑、视觉故事生成等多个维度上表现出色，让业界惊叹「Wow」。更重要的是，它展现了对物理世界动态、因果、时空、逻辑的深刻理解，预示着AI正加速从数字世界迈向物理世界。

AI新纪元：Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态世界模型自回归架构第3张

智源还公开了长达45页的详尽技术报告，详细阐述了其数据处理、模型架构、训练方式及推理加速等技术细节。

项目主页：https://zh.emu.world

技术报告：https://arxiv.org/pdf/2510.26583

这背后是智源对「引领人工智能原始创新」的坚持和对未来技术路线的自信。

悟界·Emu3.5为全球大模型竞赛中的几个根本性问题提供了来自中国的原创解法，包括多模态的统一、世界模型的学习内容、如何实现规模化以及如何落地等。

从Next-Token到Next-State：原生多模态学习新范式

王仲远在发布会上反复强调：「人类的学习，不是从文本开始的。」婴儿首先通过视觉感知世界，通过观察、交互逐步理解物理规律和因果关系，语言在此基础上发展。

当前的大语言模型（LLM）在耗尽互联网文本数据后增长已显疲态。而多模态领域的技术路线尚未收敛。主流的视频和图像生成模型大多采用混合架构，理解和生成模块分离，难以实现统一的智能。

Emu系列从诞生之初就选择了另一条更艰难但更本质的道路——原生多模态。

Emu3.5继承并发展了这一理念，采用了一个统一的预测下一个状态（Next-State Prediction）范式。

与LLM预测下一个文本Token类似，Emu3.5将图像、文本、乃至动作指令都「Token化」，置于一个统一的序列中，然后用一个单一的、端到端的自回归Transformer模型来预测序列中的下一个Token。

这种架构的统一性和可扩展性显而易见。它彻底打破了理解与生成的壁垒，并能完美复用为LLM构建的已成熟的基础设施。

第三种Scaling范式：790年长视频数据与大规模多模态RL

海量且高质量的数据是骨架之外的血肉。Emu3.5的训练数据量惊人——超过13万亿多模态Token。

其核心是累计时长达790年的互联网长视频数据，涵盖了纪录片、教学视频、Vlog、游戏动画等。

为了消化这些海量数据，智源团队构建了一套复杂的自动化数据处理流水线。在训练上，Emu3.5的路径清晰而坚定：大规模预训练和大规模多模态强化学习（RL）。

黑科技DiDA：自回归模型推理速度飙升20倍

为了提升自回归模型的推理速度，Emu3.5团队研发了名为离散扩散自适应（Discrete Diffusion Adaptation, DiDA）的黑科技。

DiDA的核心思想是在模型完成大规模预训练和后训练后，通过一个轻量级的「适应」阶段，将其从「逐个Token预测」的模式转换为「并行生成」的模式。

从图像编辑到具身操作：开源最优

在效果上，Emu3.5不仅生成和编辑高质量图片的能力令人惊叹，其高层语义理解、数字与空间理解、视角变换以及长时序、高一致性的「世界学习」能力也遥遥领先。

AI新纪元：Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态世界模型自回归架构第4张

AI新纪元：Emu3.5开启多模态世界模型新篇章 Emu3.5 多模态世界模型自回归架构第5张

云服务器服务器教程免费vps

本文由主机测评网于2026-05-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543807.html

AI新纪元：Emu3.5开启多模态世界模型新篇章

从Next-Token到Next-State：原生多模态学习新范式

第三种Scaling范式：790年长视频数据与大规模多模态RL

黑科技DiDA：自回归模型推理速度飙升20倍

从图像编辑到具身操作：开源最优

马斯克与奥特曼的恩怨情仇：从Tesla到OpenAI

奇迹公司Oklo：从零到百亿市值的“科幻”之旅

AI新纪元：Emu3.5开启多模态世界模型新篇章

从Next-Token到Next-State：原生多模态学习新范式

第三种Scaling范式：790年长视频数据与大规模多模态RL

黑科技DiDA：自回归模型推理速度飙升20倍

从图像编辑到具身操作：开源最优

马斯克与奥特曼的恩怨情仇：从Tesla到OpenAI

奇迹公司Oklo：从零到百亿市值的“科幻”之旅

相关文章