智东西消息,北京时间1月29日,由北京智源人工智能研究院自主研发的多模态大模型“悟界·Emu”正式在顶级学术期刊《Nature》正刊发表。这是继DeepSeek之后,中国大模型团队再次取得的里程碑式成就,更是中国首篇聚焦于多模态大模型技术路线的Nature论文。
Nature官网截图
针对该成果,Nature编辑评价称:“Emu3通过纯粹的‘预测下一个token’逻辑,成功实现了文本、图像及视频的大规模统一学习。其在生成与感知任务上的表现,足以媲美那些采用专用复杂路线的模型。这一突破对于构建可扩展、统一的多模态智能系统具有深远意义,将直接助力原生多模态助手、世界模型以及具身智能领域的跨越式发展。”
Emu3为具身智能等前沿领域注入新动能
“悟界·Emu3”由智源研究院于2024年10月首次亮相。该模型打破了感知与生成的壁垒,展现出极强的通用性,能够高效处理文生图、文生视频、视觉理解、图文交错生成及具身控制等多种任务。这一成果有力证明了自回归架构有望成为生成式AI的终极统一路线。
测评数据显示,Emu3在图像生成基准MSCOCO上表现超越了SDXL等主流扩散模型;视频生成方面,其VBench评分高达81,力压Open-Sora 1.2;在视觉语言理解上,62.1的分数也略优于LLaVA-1.6。虽然在当前视角下这些数据已趋于常态,但在两年前的技术环境下,其领先性极具震撼力。
Emu3在多项主流多模态测评中表现卓越
Anthropic联合创始人杰克·克拉克曾高度评价Emu3:它摒弃了繁琐的架构堆砌,回归最基础的预测逻辑,这种“大道至简”的设计蕴含着惊人的扩展潜力。
这种极简架构不仅降低了研发门槛,更极大削减了工业成本。智源研究院院长王仲远指出:“架构越简单,生产力往往越强。Emu3简化了AI体系,降低了开发中的复杂度和出错率,显著提升了模型构建与维护的效率。”
智源研究院院长王仲远畅谈技术愿景
进入2025年10月,“悟界·Emu”已进化至多模态世界模型。Emu3.5能够理解长时序空间的一致性,并在虚拟环境中模拟复杂操作。该模型不仅超越了谷歌Nano Banana夺得多模态SOTA,更首创“多模态Scaling范式”,为具身智能与物理AI的发展指明了新方向。
Emu3.5持续深耕多模态统一建模
为何Emu3能赢得国际学术界的顶级认可?其背后的原创技术经历了哪些打磨?这对未来AI产业又将产生怎样的震荡?本文将深度拆解这一巅峰成果。
论文标题:《Multimodal learning with next-token prediction for large multimodal models》
获取地址:https://www.nature.com/articles/s41586-025-10041-x
开源仓库:https://github.com/baaivision/Emu3
Emu3 Nature论文核心章节展示
Emu3的立项追溯到2024年初。彼时,GPT-4与Sora风头正盛,自回归路线在语言模型领域大获全胜,但在多模态生成领域,DiT架构仍是主流。“预测下一个token”是否能统一所有模态?这在当时是一个悬而未决的难题。
智源团队经过激烈辩论达成共识:现有多模态方案过于碎片化,拼接痕迹明显,存在难以逾越的性能天花板。2024年2月,智源毅然组建50人攻坚队,选择了一条挑战传统、回归原点的道路:基于自回归架构,利用离散Token化技术,从零开始训练一个能同时理解和生成图像、视频与文本的Transformer。
Emu3具备处理复杂多模态任务的全能素质
这是一场孤独的冒险。团队曾面临图像信息高度冗余导致的Token化难题,也曾遭遇业界对多模态路径的广泛质疑。但智源团队坚信,若要通往AGI,模型必须拥有“看懂物理世界”的能力,而统一建模是唯一的必经之路。
Emu3发布后的两年间,已深度渗透产业界。其核心优势在于:不仅在理论上实现了统一,在实际性能上也完全不输专用模型。
在文生图领域,Emu3的画面质量与SDXL旗鼓相当,并逐步逼近DALL-E 3。在视觉语言理解上,它摒弃了CLIP预训练依赖,直接通过原生训练达到了主流方案的水准。
Emu3生成效果比肩顶级扩散模型
Emu3在多项理解与生成指标上表现平稳
此外,Emu3在视频生成与零样本修复上的表现同样惊艳。它不仅能通过预测未来帧来延展视频,展现出对物理规律的初步领悟,还能无缝拓展至机器人指令建模(VLA),真正体现了“万物皆可Token”的通用哲学。
Emu3在无编码器视觉理解方案中处于领先地位
Emu3强大的图像语义修复能力
Emu3视频生成能力已超越多款知名专用模型
Emu3生成的图文交错内容极具实用价值
Emu3在具身智能视觉预测中的可视化应用
尽管业内曾有“扩散模型已死”的激辩,但王仲远认为,与其争论谁优谁劣,不如探索如何融合。Emu3的成功在于其极致的统一性。它沿用了类Llama的解码器架构,通过创新的离散标记器将视频、图像与文字压缩进同一个语义空间。这种端到端的训练方式,让模型能够通过学习“预测下一状态”来不断增强智能。
Emu3核心架构逻辑示意图
智源研究院始终立于大模型原始创新的潮头。从2021年发布全球最大MoE架构模型“悟道2.0”,到如今Emu系列横扫国际学术界,智源已成为中国AI技术的风向标。更重要的是,智源坚持模型权重、代码与数据全方位开源,累计下载量超7.6亿次,深刻改变了国内AI研发的生态环境。
当前,北京作为大模型重镇,创新成果井喷。智谱、百度、月之暗面等团队佳绩频传,而智源作为产学研结合的独特机构,凭借对基础研究的长期主义坚守,成功开创了中国科研机构领跑Nature的新历史。北京“开源之都”的底蕴,正转化为推动全球AI演进的核心引擎。
本文由主机测评网于2026-04-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260434473.html