当前位置:首页 > 科技资讯 > 正文

智源AI研究院发布全新开源多模态世界模型——悟界·Emu3.5

科技前沿又迎来新突破——

北京智源人工智能研究院(BAAI)震撼推出悟界·Emu3.5,一款顶尖的多模态世界模型。

无论是图、文还是视频任务,它都能轻松驾驭,不仅能绘制和修改图像,还能生成图文教程,视频任务更添物理真实感。

先体验下它的高超技能:一句话就能消除手写痕迹。

智源AI研究院发布全新开源多模态世界模型——悟界·Emu3.5 Emu3.5 开源 多模态 世界模型 第1张

第一视角畅游动态3D世界:

智源AI研究院发布全新开源多模态世界模型——悟界·Emu3.5 Emu3.5 开源 多模态 世界模型 第2张

AI迭代速度之快,不断刷新人们的认知。

特别是在文生视频领域,新技术层出不穷,几乎每月都有新花样。

肉眼可见,AI视频越来越逼真,越来越长。

但别急,真正的关键早已不是“像不像”,而是“懂不懂”。

它知道桌子上的苹果被拿走后,那里应该变空吗?它明白你转身之后,背后的场景依然存在吗?如果答案是否定的,那再逼真的视频,也不过是“高级的GIF”。

现在,智源携悟界·Emu3.5来挑战这一终极难题。

从官方演示来看,Emu3.5的作品展现出极强的连贯性和逻辑性,尤其是AI模拟动态物理世界的能力又得到了显著提升。

它能让你以第一人称视角进入它所构建的虚拟世界。你的每一次移动、每一次转身,它都能动态构建出你下一步应该看到的场景,全程保持空间一致性。

除了展示探索3D游戏世界,还能第一视角参观阳光下的客厅:

智源AI研究院发布全新开源多模态世界模型——悟界·Emu3.5 Emu3.5 开源 多模态 世界模型 第3张

在火星上开卡丁车也很流畅:

智源AI研究院发布全新开源多模态世界模型——悟界·Emu3.5 Emu3.5 开源 多模态 世界模型 第4张

掌握世界运行规律后,它不仅能像专业设计师一样进行高精度、可控的图像编辑:

智源AI研究院发布全新开源多模态世界模型——悟界·Emu3.5 Emu3.5 开源 多模态 世界模型 第5张

还能像拍电影一样,生成图文并茂的视觉故事:

智源AI研究院发布全新开源多模态世界模型——悟界·Emu3.5 Emu3.5 开源 多模态 世界模型 第6张

从测评成绩来看,悟界·Emu3.5的表现极为出色——在多项权威基准上,性能媲美甚至超越了Gemini-2.5-Flash-Image。

智源AI研究院发布全新开源多模态世界模型——悟界·Emu3.5 Emu3.5 开源 多模态 世界模型 第7张

Emu3.5的命名就揭示了其定位:世界模型基座

它要做的是世界模型的基础模型,这相当于在AI领域开辟了一条全新的赛道。

像智能体一样理解长时序

核心能力:世界探索与具身操作

这是Emu3.5最核心、最能体现其“世界模型基座”本质的能力。它能像一个智能体(Agent)一样,理解长时序、空间一致的序列,模拟在虚拟世界中的探索和操作。

进阶能力:视觉指导与复杂图像编辑

正因为掌握了动态世界演变规律,Emu3.5尤其擅长提供具有连贯性和指导意义的视觉内容。

    背后技术原理

      One More Thing