「Photoshop is dead」,已成为近期AI创作者圈中的热议话题。
随着图像编辑与生成模型步入新一轮爆发期,这款专业创意软件的统治地位正遭受前所未有的冲击。
特别是谷歌的Nano Banana、字节的Seedream4.0以及阿里的Qwen-Image-Edit-2509等引领多模态生图技术升级,它们展现了诸如OOTD穿搭、文字渲染、电影分镜生成等更多新能力与玩法。这些模型让创作者无需深度修图技能,更加关注「如何让生图结果更可控、更有创意、更具产品化价值。」
从技术路线来看,以Nano Banana为代表的模型通过多模态指令融合语言理解、视觉识别与生成控制,实现更自然的创作体验。然而,随着使用场景拓展,这类指令驱动的编辑与生成也逐渐暴露出局限,如语言指令模糊、抽象概念处理不力等。
两周前,港科大讲座教授、冯诺依曼研究院院长贾佳亚团队开源了最新成果DreamOmni2,针对当前多模态指令编辑与生成的短板进行了系统性优化与升级。该系统基于FLUX-Kontext训练,保留原有指令编辑与文生图能力,并拓展出多参考图生成编辑能力,给予创作者更高灵活性与可玩性。
根据团队说法,DreamOmni2在编辑与生成具体物体或抽象概念方面均表现显著优于当前SOTA开源模型,甚至在某些方面超越Nano Banana。我们来看看其效果:
基于指令的多模态编辑:让第一张图像中女子的帽子与第二张图像中毛衣配色相同。
基于指令的图像生成:图1被挂在卧室墙上,图3中杯子变成与图2中盘子相同材质,并放置在桌子上。
DreamOmni2引起了海外创作者的关注与热议。有人给予高度评价,认为它将颠覆图像生成与编辑认知;还有人称其为「King Bomb」,特别称赞其抽象概念理解能力。Youtube上也出现了大量介绍与使用经验分享视频。
开源两周以来,DreamOmni2收获开源社区大量认可,在GitHub上已积累1.6k Star量。
代码地址:https://github.com/dvlab-research/DreamOmni2
如果说Nano Banana开启了多模态AI图像编辑生成的新纪元,那么DreamOmni2则将这种改图与生图能力推向深水区,为创作者提供了语义理解更全面、创意延展性更强的智能引擎。
接下来,机器之心进行了一手实测,一起来看看效果如何。
一手实测,看看强在哪里?
我们首先测试了DreamOmni2的基于指令的多模态编辑能力。
体验地址:https://huggingface.co/spaces/wcy112...
在这一任务中,我们给模型输入了两张图片和一条提示,将图1中熊猫背景替换为图2,生成证件照。DreamOmni2迅速完成,生成的图片背景符合要求,毛发细节也保留得恰到好处。
...(此处省略部分实测内容)...
...(此处省略部分技术细节内容)...
结语
去年12月,贾佳亚团队发布DreamOmni,迈出探索图像生成与编辑任务大一统的第一步。如今DreamOmni2的开源,则是这一方向的深化与延展。
...(此处省略部分总结内容)...
本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543213.html