当前最先进的开源原生多模态世界模型——
北京智源人工智能研究院(BAAI)重磅推出悟界·Emu3.5,震撼亮相AI领域。
该模型能够全面处理图像、文本和视频任务,不仅支持绘图和图像编辑,还能生成图文并茂的教程,尤其在视频任务中显著增强了物理真实性。
让我们先体验其高精度操作:仅用一句话指令即可消除手写痕迹。
第一视角漫游动态3D世界:
众所周知,人工智能技术迭代速度极快,不断突破人们的想象。
特别是在文本到视频生成领域,几乎每月都有创新技术涌现,引发广泛关注。
肉眼可见,AI视频内容愈发逼真,时长也持续增加。
然而,先别急于欢呼——
真正的竞争焦点,早已从“像不像”转向了“懂不懂”。
它是否理解桌子上的苹果被拿走后,那个位置应该变空?它能否意识到你转身后,背后的场景依然存在?如果答案是否定的,那么再逼真的视频,也不过是“高级的动态图片”。
现在,致力于攻克这一终极挑战的团队,终于携悟界·Emu3.5登场。
从官方发布的演示来看,Emu3.5生成的作品展现出极强的连贯性和逻辑性,尤其让AI模拟动态物理世界的能力得到大幅提升。
它能让你以第一人称视角沉浸于其构建的虚拟世界。你的每一次移动和转身,它都能动态生成下一步应看到的场景,全程保持空间一致性。
除了上述探索3D游戏世界,还能以第一视角参观阳光下的客厅:
在火星上驾驶卡丁车同样流畅自如:
由于掌握了世界运行的内在规律,它不仅能像专业设计师一样,进行高精度、可控的图像编辑:
还能像拍摄电影一样,生成图文并茂的视觉故事:
从测评成绩来看,悟界·Emu3.5的表现也极为出色——在多项权威基准测试中,性能媲美甚至超越了Gemini-2.5-Flash-Image,没错,就是那个Nano Banana,在文本渲染和多模态交错生成任务上优势尤其明显。
Emu3.5的命名,直接揭示了其定位:世界模型基座。
顾名思义,它旨在成为世界模型的基础框架,这相当于在AI领域开创了一条全新赛道。
那么,这个被寄予厚望的模型究竟有多强大?让我们通过更多案例来了解。
这是Emu3.5最核心、最能体现其“世界模型基座”本质的能力。它能像一个智能体(Agent)一样,理解长时序、空间一致的序列,模拟在虚拟世界中的探索和操作。
比如下面这个“整理桌面”的任务,就是通过以下指令逐步实现的:
正因掌握了动态世界演变规律,Emu3.5特别擅长提供具有连贯性和指导意义的视觉内容。
当给Emu3.5一张狐狸草图,并发出系列指令“将其转化为3D模型、进行3D打印、再上色”后,它直接一步步生成了从草图到最终手办形态的完整视觉流程。整个过程中,狐狸的核心特征和神态都得到完美保留,成功应对了长时程创作的挑战。
这种能力还让它能生成分步教学指南,手把手指导烹饪、绘画、园艺等活动:
同时,它也支持多图、多轮指令的复杂图像编辑,在主体一致性和风格保持方面达到业界顶尖水平。
值得注意的是,由于Emu3.5本身在海量互联网视频上进行预训练,它天生具备理解时空连续性的能力,能够生成长时序、逻辑一致的序列,避免风格漂移或事实错误。
为了构建Emu3.5,智源团队在技术层面进行了一系列创新和突破。
Emu3.5参数量仅为34B,整个模型以标准的Decoder-only Transformer为框架,单一模型能够同时完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务。
它将所有任务统一为下一状态预测(Next-State Prediction)任务,无论是文本还是图像,都被一个强大的多模态分词器(Tokenizer)转换成离散的Token序列。
模型在超过 10万亿 Token的多模态数据上进行训练,其中主力是来自互联网视频的 连续帧和转录文本 。这使得模型从一开始就沉浸式学习时空连续性和因果关系。
视觉分词器(Tokenizer)基于IBQ框架,拥有13万的视觉词汇表,并集成了扩散解码器,能实现高达 2K 分辨率的高保真图像重建。
在预训练之后,模型经过了大规模的 有监督微调(SFT)和大规模多模态强化学习(RL) ,使用一个包含通用指标(如美学、图文对齐)和任务特定指标(如故事连贯性、文本渲染准确率)的复杂奖励系统进行优化。
为了解决自回归模型生成图像慢的问题,团队提出了 离散扩散适配(DiDA)技术 ,它能将逐个Token的生成方式转变为并行的双向预测,在不牺牲性能的前提下,使每张图像的推理速度提升近20倍。
如此强大的模型,智源选择——开源发布!
全球开发者与研究者无需从零开始,即可直接上手一个懂物理、有逻辑的世界模型。
从生成更逼真的视频,到构建更智能的代理,再到赋能各行各业的实际应用……其想象空间无限广阔。
对了,如果想要体验科研内测版,可点击下方链接申请~
体验链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b
项目主页:https://zh.emu.world/pages/web/landingPage
技术报告:https://zh.emu.world/Emu35_tech_report.pdf
本文由主机测评网于2026-01-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118284.html