当前位置:首页 > 科技资讯 > 正文

DreamOmni2:AI多模态编辑与生成的革命性突破

AI创作的未来在于直接领悟灵感,而非机械执行指令。正如梵高的独特笔触或王家卫的经典光影,这些抽象美感难以用语言精确描述。

AI图像生成技术正迎来爆发式增长!

今年初,GPT-4o掀起了一股“吉卜力”动画风格的热潮。

近期,全网又疯狂追捧Nano Banana生成的3D手办模型。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第1张

然而,细心的用户可能发现了一个“关键点”:

这些统一的生成与编辑功能,大多聚焦于指令编辑与实体概念的组合;若想作为智能创作工具,仍存在明显不足。

  • 当语言表达力不从心。

试想,你希望将一张照片中人物的背包,替换成另一张照片里裙子的复杂图案。如何用语言向AI精确描述那种不规则、充满艺术感的波西米亚风格纹样?

答案几乎是:不可能完成的任务。

  • 当灵感源于抽象感受。

更进一步,当你想借鉴的并非具体物体,而是一种抽象的“感觉”——

比如,一张老照片的“复古胶片光影质感”,或某位画家的“独特笔触风格”,那些仅擅长提取和复制实体的模型便无能为力。

如果AI既能理解人类语言,又能精准捕捉这些抽象风格,该有多好!

最近,这个技术瓶颈被港科大贾佳亚领衔的AI研究团队突破。相关成果在Github上两周内获得1.6K星标,被众多国外创作者分享于YouTube和论坛,引发广泛热议。

在一篇题为“DreamOmni2: Multimodal Instruction-based Editing and Generation”的论文中,AI获得了针对“抽象概念”的多模态编辑与生成能力。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第2张

·论文地址:

https://arxiv.org/html/2510.06679v1

·项目主页:

https://pbihao.github.io/projects/DreamOmni2/index.html

·代码仓库:

https://github.com/dvlab-research/DreamOmni2

基于强大的FLUX Kontext模型,DreamOmni2在保留顶尖文生图与指令编辑能力的同时,新增了处理多个参考图像的功能,使其成为更智能的创作工具。

它不仅在传统任务上显著优于现有开源模型,更在全新的抽象概念处理任务上,展现出超越谷歌最强Nano Banana的性能。

开源版Nano Banana,但实力更胜一筹

实践出真知,我们直接进行实测。

首先尝试经典场景:输入一个产品,让角色“带货”。

提示词:

The character from the first image is holding the item from the second picture.

让图1中的角色,手持图2中的物品。

生成结果中,表情、头发、手指细节及衣服质感都近乎完美。

同时,产品本身也融合得天衣无缝。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第3张

接下来,测试三次元效果——将图1中的男子替换为图2中的女子。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第4张

结果令人惊叹!

生成图片中,背景山峦和赛博感光线效果几乎完美继承,人物身前的文字毫无影响。

人物方面,衣服和发型与原图2一致,面部光线则模仿了图1的效果。

表现十分出色。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第5张

在光线渲染方面,我们增加难度,让模型将图2中的红蓝风格迁移到图1上。

提示词:

Make the first image has the same light condition as the second image.

让图1的光照条件与图2保持一致。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第6张

DreamOmni2不仅保持了图1原有的格栅状光照,融合后的红蓝对比也极其鲜明。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第7张

相比之下,GPT-4o(下图左)仅迁移了色调,光影效果未保留。Nano Banana(下图右)略有变色,但变化不大。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第8张

风格迁移更是轻而易举。

提示词:

Replace the first image have the same image style as the second image.

将图1处理成与图2相同的风格

像素风的鸡——成功实现。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第9张

二次元风的小姐姐——完美生成。(效果惊艳)

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第10张

图案、文字迁移也毫无压力。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第11张

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第12张

提示词:

On the cup, "Story" is displayed in the same font style as the reference image.

在杯子上用参考图里的同款字体显示“Story”字样

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第13张

此外,DreamOmni2还擅长动作模仿。

提示词:

Make the person from the first image has the same pose as person from the second image.

让图1里的人模仿图2中的姿势

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第14张

在DreamOmni2生成的结果中,胳膊和腿的动作基本完美复刻了图2。

但略有不足的是,人物的方向和手部细节稍有差异。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第15张

不过,相比在语义理解上出现重大问题的开源模型FLUX Kontext,其优势明显。

如下图所示,Kontext未能理解“第一张图”、“第二张图”及调整姿势的指令,直接复制了图2。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第16张

闭源模型方面,GPT-4o(下图左)动作模仿较到位,但面部一致性不佳。

而Nano Banana(下图右)则略显抽象,生成了“三体人”效果。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第17张

除了身体动作,DreamOmni2在面部微表情和发型编辑上也精准稳定。

提示词:

Make the person in the first image have the same expression as the person in the second image.

让图1里的人做出和图2相同的表情。

嘴巴张开幅度、眼睛眯起程度几乎一模一样,笑容非常灿烂。

这种效果若仅靠语言描述,极难实现。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第18张

提示词:

Make the person in the first image have the same hairstyle as the person in the second image.

给图1里的人换上和图2中一样的发型

背景沙发、人物动作、衣物都保持不变;仅头发从黑色短发变为金色长卷发。

注意脖子处,因头发遮挡产生的阴影也自然呈现。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第19张

值得一提的是,DreamOmni2的多图编辑能力非常强大。

例如,让图1的鹦鹉戴上图2的帽子,并模仿图3的氛围与色调。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第20张

可以看到,鹦鹉羽毛、帽子颜色及整个背景氛围都完美复刻了上图中的火箭图片。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第21张

再增加难度:输入4张图,让模型将前3张图组合,并改为图4的风格。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第22张

女生衣服条纹、男生络腮胡、小狗品种都完美迁移。

同时,画中的笔触和色彩运用也得到了忠实呈现。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第23张

国外网友体验后纷纷表示惊艳。

甚至有人制作教程,直言“别再用Nano Banana了,DreamOmni2 ComfyUI才是最强的免费工作流!”

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第24张

更多实测可见:

· Huggingface EditingDemo:

https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit

·Huggingface Generation Demo:

https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen

·Video Demo:

https://www.youtube.com/watch?v=8xpoiRK57uU

实验验证:AI学会“照样子改”的能力

为真实展示DreamOmni2性能,研究团队专门构建了全新的DreamOmni2基准测试集,包含205个多模态指令编辑测试用例和114个指令生成测试用例。

重点考察多模态指令生成以及“抽象属性”与“具体物体”的混合编辑。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第25张

DreamOmni2基准测试中多模态指令生成及编辑示例

在多模态指令编辑测试中,相比业界顶流GPT-4o和Nano Banana,DreamOmni2显示出更精确的编辑结果和更好的一致性。

除了编辑指令执行率,GPT-4o和Nano Banana还存在小问题,如常引入意外改动或不一致。例如,换姿势时连衣服也更换。

在纵横比方面,GPT-4o仅支持三种输出,而Nano Banana难以控制。

有趣的是,GPT-4o处理后的图片会“莫名发黄”。

相比之下,DreamOmni2无这些问题。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第26张

多模态指令编辑的视觉比较

定量分析表格也反映了这些优势。

DreamOmni2在“具体物体”和“抽象属性”上得分最高,部分方面超越GPT-4o和Nano Banana。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第27张

在多模态指令生成方面,DreamOmni2表现同样出色。

实测表明,此前开源模型在生成抽象属性上十分困难。

例如下图第四行,将照片中的狗抽象成素描风格,几个开源模型几乎“无动于衷”。

相比之下,DreamOmni2不仅显著领先开源模型,还达到与GPT-4o和Nano Banana相当甚至更好的水平。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第28张

多模态指令生成可视化对比

定量评估中,DreamOmni2在人工评估和AI模型评估中均优于商业模型Nano Banana,与GPT-4o结果相当。

在生成准确性和对象一致性方面也优于一众开源模型,即使在这些模型的专长领域内也是如此。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第29张

数据构建:从零开始,融合视觉灵感

实现如此强大功能的最大挑战在于训练数据。

显然,现成世界中不存在海量的“(源图像+参考图像+指令)-> 目标图像”数据对。

为解决这一问题,研究团队设计了一套三阶段数据构建范式,为DreamOmni2“量身定制”高质量教材。

第一阶段:创造高质量的概念对

团队利用基础模型的文生图能力,提出新颖的特征混合方案。

它能在生成图像过程中交换两个生成分支的注意力特征,从而创造包含相同具体物体或抽象属性的高质量图像对。

相比过去拼接图像的方法,此方案生成图像分辨率更高、质量更好,完全避免了边缘内容混淆问题。

第二阶段:生成多模态“编辑”数据

利用第一阶段数据,团队先训练“提取模型”。该模型能从图像中精准“提取”物体或抽象属性,并根据指令生成新参考图。

随后,他们使用基于指令的编辑模型,修改目标图像中提取的物体或属性,从而创造“源图像”。

这样,完整的编辑训练数据对诞生:(源图像 + 编辑指令 + 参考图像)-> 目标图像。

第三阶段:创建多模态“生成”教材

在第二阶段基础上,团队再次使用“提取模型”,从源图像提取更多物体或属性,生成更多参考图像。

这样,构成用于多模态生成的训练数据:(多张参考图像 + 生成指令)-> 目标图像。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第30张

通过三阶段流水线,团队成功构建了多样化、高质量的综合数据集,涵盖具体物体和抽象属性(如局部和全局属性)的生成和编辑,并支持多个参考图像输入。

DreamOmni2:AI多模态编辑与生成的革命性突破 AI图像生成 多模态编辑 抽象概念处理 DreamOmni2 第31张

多模态指令编辑和生成训练数据的分布和样本

框架革新:让模型真正理解多图像输入

有了数据,还需要能“消化”数据的模型框架。

然而,当前SOTA的统一生成和编辑模型(如FLUX Kontext)不支持多图像输入。

为此,团队对框架进行两项关键创新及相应训练机制:

1. 索引编码与位置编码移位

为让模型准确区分多个参考图像并理解指令中对它们的引用(如图像1、图像2),引入索引编码和位置编码偏移方案。

索引编码帮助模型识别输入图像索引,位置编码根据先前输入大小偏移,从而防止像素混淆和生成结果中出现复制粘贴伪影。

两者结合,让模型能清晰、准确处理多图像输入。

2. 视觉语言模型(VLM)与生成模型的联合训练

现实世界中,用户指令往往不规范甚至逻辑混乱;而模型训练指令是结构化的。

为弥合这一鸿沟,团队创新性提出联合训练方案,显著提升模型理解用户意图能力,增强真实应用场景性能。

具体而言,他们让强大VLM(Qwen2.5-VL)先理解用户复杂指令,并将其“翻译”成模型能理解的结构化格式,最后交由生成/编辑模型执行。

3. LoRA微调

在训练策略上,团队采用LoRA微调方法。好处是在不影响模型原有强大能力基础上,使其多模态能力(多图输入和编辑/生成)能在检测到参考图像时无缝激活,同时保留基础模型原始指令编辑能力。

AI创作的下一个前沿

DreamOmni2的出现代表AI创作工具发展的重要方向:从单一语言模态走向真正多模态、多概念融合。

研究团队通过提出两项全新、高度实用的任务,并为此构建完整数据流水线和创新模型框架,成功推动生成式AI的技术边界。

对于设计师、艺术家和每个热爱创作的普通人来说,一个更智能、更全能的创作时代正加速到来。

参考链接:

https://arxiv.org/html/2510.06679v1

https://pbihao.github.io/projects/DreamOmni2/index.html

https://github.com/dvlab-research/DreamOmni2

https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit

https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen

https://www.youtube.com/watch?v=8xpoiRK57uU