当前位置:首页 > 科技资讯 > 正文

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元

当前最先进的开源原生多模态世界模型——

北京智源人工智能研究院(BAAI)重磅推出悟界·Emu3.5,震撼亮相AI领域。

该模型能够全面处理图像、文本和视频任务,不仅支持绘图和图像编辑,还能生成图文并茂的教程,尤其在视频任务中显著增强了物理真实性。

让我们先体验其高精度操作:仅用一句话指令即可消除手写痕迹。

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第1张

第一视角漫游动态3D世界:

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第2张

众所周知,人工智能技术迭代速度极快,不断突破人们的想象。

特别是在文本到视频生成领域,几乎每月都有创新技术涌现,引发广泛关注。

肉眼可见,AI视频内容愈发逼真,时长也持续增加。

然而,先别急于欢呼——

真正的竞争焦点,早已从“像不像”转向了“懂不懂”。

它是否理解桌子上的苹果被拿走后,那个位置应该变空?它能否意识到你转身后,背后的场景依然存在?如果答案是否定的,那么再逼真的视频,也不过是“高级的动态图片”。

现在,致力于攻克这一终极挑战的团队,终于携悟界·Emu3.5登场。

从官方发布的演示来看,Emu3.5生成的作品展现出极强的连贯性和逻辑性,尤其让AI模拟动态物理世界的能力得到大幅提升。

它能让你以第一人称视角沉浸于其构建的虚拟世界。你的每一次移动和转身,它都能动态生成下一步应看到的场景,全程保持空间一致性。

除了上述探索3D游戏世界,还能以第一视角参观阳光下的客厅:

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第3张

在火星上驾驶卡丁车同样流畅自如:

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第4张

由于掌握了世界运行的内在规律,它不仅能像专业设计师一样,进行高精度、可控的图像编辑:

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第5张

还能像拍摄电影一样,生成图文并茂的视觉故事:

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第6张

从测评成绩来看,悟界·Emu3.5的表现也极为出色——在多项权威基准测试中,性能媲美甚至超越了Gemini-2.5-Flash-Image,没错,就是那个Nano Banana,在文本渲染和多模态交错生成任务上优势尤其明显。

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第7张

Emu3.5的命名,直接揭示了其定位:世界模型基座

顾名思义,它旨在成为世界模型的基础框架,这相当于在AI领域开创了一条全新赛道。

那么,这个被寄予厚望的模型究竟有多强大?让我们通过更多案例来了解。

像智能体一样理解长时序

核心能力:世界探索与具身操作

这是Emu3.5最核心、最能体现其“世界模型基座”本质的能力。它能像一个智能体(Agent)一样,理解长时序、空间一致的序列,模拟在虚拟世界中的探索和操作。

比如下面这个“整理桌面”的任务,就是通过以下指令逐步实现的:

  1. 先将桌上所有物品清空。
  2. 将所有线缆解开并按类别整理。
  3. 使用扎带将线缆捆绑整齐。
  4. 利用理线槽将线缆隐藏于桌下。
  5. 最后将桌面物品有序摆放。

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第8张

进阶能力:视觉指导与复杂图像编辑

正因掌握了动态世界演变规律,Emu3.5特别擅长提供具有连贯性和指导意义的视觉内容。

当给Emu3.5一张狐狸草图,并发出系列指令“将其转化为3D模型、进行3D打印、再上色”后,它直接一步步生成了从草图到最终手办形态的完整视觉流程。整个过程中,狐狸的核心特征和神态都得到完美保留,成功应对了长时程创作的挑战。

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第9张

这种能力还让它能生成分步教学指南,手把手指导烹饪、绘画、园艺等活动:

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第10张

同时,它也支持多图、多轮指令的复杂图像编辑,在主体一致性和风格保持方面达到业界顶尖水平。

值得注意的是,由于Emu3.5本身在海量互联网视频上进行预训练,它天生具备理解时空连续性的能力,能够生成长时序、逻辑一致的序列,避免风格漂移或事实错误。

为了构建Emu3.5,智源团队在技术层面进行了一系列创新和突破。

背后技术原理

Emu3.5参数量仅为34B,整个模型以标准的Decoder-only Transformer为框架,单一模型能够同时完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务。

它将所有任务统一为下一状态预测(Next-State Prediction)任务,无论是文本还是图像,都被一个强大的多模态分词器(Tokenizer)转换成离散的Token序列。

  • 海量视频数据预训练

模型在超过 10万亿 Token的多模态数据上进行训练,其中主力是来自互联网视频的 连续帧和转录文本 。这使得模型从一开始就沉浸式学习时空连续性和因果关系。

  • 强大的分词器

视觉分词器(Tokenizer)基于IBQ框架,拥有13万的视觉词汇表,并集成了扩散解码器,能实现高达 2K 分辨率的高保真图像重建。

  • 多阶段对齐

在预训练之后,模型经过了大规模的 有监督微调(SFT)和大规模多模态强化学习(RL) ,使用一个包含通用指标(如美学、图文对齐)和任务特定指标(如故事连贯性、文本渲染准确率)的复杂奖励系统进行优化。

  • 推理加速黑科技

为了解决自回归模型生成图像慢的问题,团队提出了 离散扩散适配(DiDA)技术 ,它能将逐个Token的生成方式转变为并行的双向预测,在不牺牲性能的前提下,使每张图像的推理速度提升近20倍。

One More Thing

如此强大的模型,智源选择——开源发布

悟界·Emu3.5:开源多模态世界模型引爆AI视频新纪元 世界模型  多模态AI 开源创新 视频生成 第11张

全球开发者与研究者无需从零开始,即可直接上手一个懂物理、有逻辑的世界模型。

从生成更逼真的视频,到构建更智能的代理,再到赋能各行各业的实际应用……其想象空间无限广阔。

对了,如果想要体验科研内测版,可点击下方链接申请~

体验链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b

项目主页:https://zh.emu.world/pages/web/landingPage

技术报告:https://zh.emu.world/Emu35_tech_report.pdf