当前位置:首页 > 科技资讯 > 正文

AI图像编辑新纪元:DreamOmni2引领多模态生成革命

「Photoshop is dead」,已成为近期AI创作者圈中的热议话题。

随着图像编辑与生成模型步入新一轮爆发期,这款专业创意软件的统治地位正遭受前所未有的冲击。

特别是谷歌的Nano Banana、字节的Seedream4.0以及阿里的Qwen-Image-Edit-2509等引领多模态生图技术升级,它们展现了诸如OOTD穿搭、文字渲染、电影分镜生成等更多新能力与玩法。这些模型让创作者无需深度修图技能,更加关注「如何让生图结果更可控、更有创意、更具产品化价值。」

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第1张

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第2张

从技术路线来看,以Nano Banana为代表的模型通过多模态指令融合语言理解、视觉识别与生成控制,实现更自然的创作体验。然而,随着使用场景拓展,这类指令驱动的编辑与生成也逐渐暴露出局限,如语言指令模糊、抽象概念处理不力等。

两周前,港科大讲座教授、冯诺依曼研究院院长贾佳亚团队开源了最新成果DreamOmni2,针对当前多模态指令编辑与生成的短板进行了系统性优化与升级。该系统基于FLUX-Kontext训练,保留原有指令编辑与文生图能力,并拓展出多参考图生成编辑能力,给予创作者更高灵活性与可玩性。

根据团队说法,DreamOmni2在编辑与生成具体物体或抽象概念方面均表现显著优于当前SOTA开源模型,甚至在某些方面超越Nano Banana。我们来看看其效果:

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第3张

基于指令的多模态编辑:让第一张图像中女子的帽子与第二张图像中毛衣配色相同。

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第4张

基于指令的图像生成:图1被挂在卧室墙上,图3中杯子变成与图2中盘子相同材质,并放置在桌子上。

DreamOmni2引起了海外创作者的关注与热议。有人给予高度评价,认为它将颠覆图像生成与编辑认知;还有人称其为「King Bomb」,特别称赞其抽象概念理解能力。Youtube上也出现了大量介绍与使用经验分享视频。

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第5张

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第6张

开源两周以来,DreamOmni2收获开源社区大量认可,在GitHub上已积累1.6k Star量。

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第7张

代码地址:https://github.com/dvlab-research/DreamOmni2

如果说Nano Banana开启了多模态AI图像编辑生成的新纪元,那么DreamOmni2则将这种改图与生图能力推向深水区,为创作者提供了语义理解更全面、创意延展性更强的智能引擎。

接下来,机器之心进行了一手实测,一起来看看效果如何。

一手实测,看看强在哪里?

我们首先测试了DreamOmni2的基于指令的多模态编辑能力

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第8张

体验地址:https://huggingface.co/spaces/wcy112...

在这一任务中,我们给模型输入了两张图片和一条提示,将图1中熊猫背景替换为图2,生成证件照。DreamOmni2迅速完成,生成的图片背景符合要求,毛发细节也保留得恰到好处。

AI图像编辑新纪元:DreamOmni2引领多模态生成革命 DreamOmni2 多模态生成 AI图像编辑 指令驱动 第9张

...(此处省略部分实测内容)...

...(此处省略部分技术细节内容)...

结语

去年12月,贾佳亚团队发布DreamOmni,迈出探索图像生成与编辑任务大一统的第一步。如今DreamOmni2的开源,则是这一方向的深化与延展。

...(此处省略部分总结内容)...