近期,人工智能创作领域掀起一股热潮,「Photoshop已死」成为热议焦点,标志着传统专业软件正面临AI技术的强劲冲击。
随着图像编辑与生成模型进入新一轮爆发期,这款长期占据王座的创意工具遭遇前所未有的挑战,其地位开始动摇。
引领多模态生图技术升级的谷歌Nano Banana,以及字节跳动的Seedream4.0、阿里巴巴的Qwen-Image-Edit-2509等模型,不断涌现新能力,如OOTD穿搭、文字渲染、电影分镜生成等。这些模型让创作者无需深度修图技能,便能更专注于如何使生成结果更具可控性、创意性和产品化价值。
从技术路线看,以Nano Banana为代表的模型通过多模态指令,融合语言理解、视觉识别与生成控制,实现更自然的创作体验。然而,随着应用场景拓展,这类指令驱动的编辑与生成逐渐暴露出局限,如指令描述模糊、依赖参考图像,以及处理抽象概念(如发型、妆容、纹理、打光、风格)时的不足。
两周前,港科大讲座教授、冯诺依曼研究院院长贾佳亚团队开源了最新成果DreamOmni2,专门针对多模态指令编辑与生成的短板进行系统性优化。该系统基于FLUX-Kontext训练,保留原有指令编辑与文生图能力,并拓展多参考图生成编辑功能,赋予创作者更高灵活性与可玩性。
据团队介绍,无论是具体物体还是抽象概念的编辑与生成,DreamOmni2均显著优于当前SOTA开源模型,某些方面甚至超越Nano Banana。以下效果示例展示了其强大能力:基于指令的多模态编辑中,它能将源图像中女子的帽子配色替换为参考图像中毛衣的配色方案;在生成任务中,可结合多图指令生成复杂场景。
DreamOmni2迅速引发海外创作者关注,被誉为“King Bomb”,其抽象概念理解能力备受称赞。YouTube上涌现大量介绍视频,开源两周内GitHub Star量达1.6k。
代码已开源,地址为:https://github.com/dvlab-research/DreamOmni2。如果说Nano Banana开启了多模态AI图像编辑生成新纪元,DreamOmni2则将这一能力推向深水区,提供语义理解更全面、创意延展性更强的智能引擎。
一手实测显示,DreamOmni2在基于指令的多模态编辑中,能精准替换背景、转换风格,细节保留出色;在生成任务中,可准确融合徽标、转换姿态,效果自然。与GPT-4o和Nano Banana对比,DreamOmni2在衣物替换、抽象概念处理上表现更优,画面协调性更强。
技术层面,DreamOmni2通过三阶段数据构建范式、多参考图索引编码优化以及VLM与生成模型联合训练,打通多模态生成全链路。其数据构建涵盖具体物体与抽象属性,框架设计支持多参考图输入,训练机制提升对复杂指令的理解,从而在编辑与生成任务中实现新的SOTA性能。
论文详情可访问:https://arxiv.org/pdf/2510.06679v1。DreamOmni2的发布是贾佳亚团队多模态技术栈的延续,从DreamOmni到MGM-Omni,团队已构建感知、理解与生成全链路能力。随着AI创作范式变革,这类开源工作将推动全球多模态生态演进,赋能创作者实现更深层次的人模共创。
总之,DreamOmni2以系统性创新提升多模态理解、编辑与生成的自然衔接,为下一代AI视觉工具树立标杆,预示著创意产业将迎来更智能、更高效的创作时代。
本文由主机测评网于2026-01-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260117205.html