当前位置：首页 > 科技资讯 > 正文

DreamOmni2：AI多模态编辑与生成的革命性突破

主机测评网
科技资讯
2026-01-13
482

AI创作的未来在于直接领悟灵感，而非机械执行指令。正如梵高的独特笔触或王家卫的经典光影，这些抽象美感难以用语言精确描述。

AI图像生成技术正迎来爆发式增长！

今年初，GPT-4o掀起了一股“吉卜力”动画风格的热潮。

近期，全网又疯狂追捧Nano Banana生成的3D手办模型。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第1张

然而，细心的用户可能发现了一个“关键点”：

这些统一的生成与编辑功能，大多聚焦于指令编辑与实体概念的组合；若想作为智能创作工具，仍存在明显不足。

当语言表达力不从心。

试想，你希望将一张照片中人物的背包，替换成另一张照片里裙子的复杂图案。如何用语言向AI精确描述那种不规则、充满艺术感的波西米亚风格纹样？

答案几乎是：不可能完成的任务。

当灵感源于抽象感受。

更进一步，当你想借鉴的并非具体物体，而是一种抽象的“感觉”——

比如，一张老照片的“复古胶片光影质感”，或某位画家的“独特笔触风格”，那些仅擅长提取和复制实体的模型便无能为力。

如果AI既能理解人类语言，又能精准捕捉这些抽象风格，该有多好！

最近，这个技术瓶颈被港科大贾佳亚领衔的AI研究团队突破。相关成果在Github上两周内获得1.6K星标，被众多国外创作者分享于YouTube和论坛，引发广泛热议。

在一篇题为“DreamOmni2: Multimodal Instruction-based Editing and Generation”的论文中，AI获得了针对“抽象概念”的多模态编辑与生成能力。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第2张

·论文地址：

https://arxiv.org/html/2510.06679v1

·项目主页：

https://pbihao.github.io/projects/DreamOmni2/index.html

·代码仓库：

https://github.com/dvlab-research/DreamOmni2

基于强大的FLUX Kontext模型，DreamOmni2在保留顶尖文生图与指令编辑能力的同时，新增了处理多个参考图像的功能，使其成为更智能的创作工具。

它不仅在传统任务上显著优于现有开源模型，更在全新的抽象概念处理任务上，展现出超越谷歌最强Nano Banana的性能。

开源版Nano Banana，但实力更胜一筹

实践出真知，我们直接进行实测。

首先尝试经典场景：输入一个产品，让角色“带货”。

提示词：

The character from the first image is holding the item from the second picture.

让图1中的角色，手持图2中的物品。

生成结果中，表情、头发、手指细节及衣服质感都近乎完美。

同时，产品本身也融合得天衣无缝。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第3张

接下来，测试三次元效果——将图1中的男子替换为图2中的女子。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第4张

结果令人惊叹！

生成图片中，背景山峦和赛博感光线效果几乎完美继承，人物身前的文字毫无影响。

人物方面，衣服和发型与原图2一致，面部光线则模仿了图1的效果。

表现十分出色。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第5张

在光线渲染方面，我们增加难度，让模型将图2中的红蓝风格迁移到图1上。

提示词：

Make the first image has the same light condition as the second image.

让图1的光照条件与图2保持一致。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第6张

DreamOmni2不仅保持了图1原有的格栅状光照，融合后的红蓝对比也极其鲜明。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第7张

相比之下，GPT-4o（下图左）仅迁移了色调，光影效果未保留。Nano Banana（下图右）略有变色，但变化不大。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第8张

风格迁移更是轻而易举。

提示词：

Replace the first image have the same image style as the second image.

将图1处理成与图2相同的风格

像素风的鸡——成功实现。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第9张

二次元风的小姐姐——完美生成。（效果惊艳）

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第10张

图案、文字迁移也毫无压力。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第11张

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第12张

提示词：

On the cup, "Story" is displayed in the same font style as the reference image.

在杯子上用参考图里的同款字体显示“Story”字样

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第13张

此外，DreamOmni2还擅长动作模仿。

提示词：

Make the person from the first image has the same pose as person from the second image.

让图1里的人模仿图2中的姿势

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第14张

在DreamOmni2生成的结果中，胳膊和腿的动作基本完美复刻了图2。

但略有不足的是，人物的方向和手部细节稍有差异。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第15张

不过，相比在语义理解上出现重大问题的开源模型FLUX Kontext，其优势明显。

如下图所示，Kontext未能理解“第一张图”、“第二张图”及调整姿势的指令，直接复制了图2。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第16张

闭源模型方面，GPT-4o（下图左）动作模仿较到位，但面部一致性不佳。

而Nano Banana（下图右）则略显抽象，生成了“三体人”效果。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第17张

除了身体动作，DreamOmni2在面部微表情和发型编辑上也精准稳定。

提示词：

Make the person in the first image have the same expression as the person in the second image.

让图1里的人做出和图2相同的表情。

嘴巴张开幅度、眼睛眯起程度几乎一模一样，笑容非常灿烂。

这种效果若仅靠语言描述，极难实现。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第18张

提示词：

Make the person in the first image have the same hairstyle as the person in the second image.

给图1里的人换上和图2中一样的发型

背景沙发、人物动作、衣物都保持不变；仅头发从黑色短发变为金色长卷发。

注意脖子处，因头发遮挡产生的阴影也自然呈现。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第19张

值得一提的是，DreamOmni2的多图编辑能力非常强大。

例如，让图1的鹦鹉戴上图2的帽子，并模仿图3的氛围与色调。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第20张

可以看到，鹦鹉羽毛、帽子颜色及整个背景氛围都完美复刻了上图中的火箭图片。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第21张

再增加难度：输入4张图，让模型将前3张图组合，并改为图4的风格。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第22张

女生衣服条纹、男生络腮胡、小狗品种都完美迁移。

同时，画中的笔触和色彩运用也得到了忠实呈现。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第23张

国外网友体验后纷纷表示惊艳。

甚至有人制作教程，直言“别再用Nano Banana了，DreamOmni2 ComfyUI才是最强的免费工作流！”

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第24张

更多实测可见：

· Huggingface EditingDemo:

https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit

·Huggingface Generation Demo:

https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen

·Video Demo:

https://www.youtube.com/watch?v=8xpoiRK57uU

实验验证：AI学会“照样子改”的能力

为真实展示DreamOmni2性能，研究团队专门构建了全新的DreamOmni2基准测试集，包含205个多模态指令编辑测试用例和114个指令生成测试用例。

重点考察多模态指令生成以及“抽象属性”与“具体物体”的混合编辑。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第25张

DreamOmni2基准测试中多模态指令生成及编辑示例

在多模态指令编辑测试中，相比业界顶流GPT-4o和Nano Banana，DreamOmni2显示出更精确的编辑结果和更好的一致性。

除了编辑指令执行率，GPT-4o和Nano Banana还存在小问题，如常引入意外改动或不一致。例如，换姿势时连衣服也更换。

在纵横比方面，GPT-4o仅支持三种输出，而Nano Banana难以控制。

有趣的是，GPT-4o处理后的图片会“莫名发黄”。

相比之下，DreamOmni2无这些问题。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第26张

多模态指令编辑的视觉比较

定量分析表格也反映了这些优势。

DreamOmni2在“具体物体”和“抽象属性”上得分最高，部分方面超越GPT-4o和Nano Banana。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第27张

在多模态指令生成方面，DreamOmni2表现同样出色。

实测表明，此前开源模型在生成抽象属性上十分困难。

例如下图第四行，将照片中的狗抽象成素描风格，几个开源模型几乎“无动于衷”。

相比之下，DreamOmni2不仅显著领先开源模型，还达到与GPT-4o和Nano Banana相当甚至更好的水平。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第28张

多模态指令生成可视化对比

定量评估中，DreamOmni2在人工评估和AI模型评估中均优于商业模型Nano Banana，与GPT-4o结果相当。

在生成准确性和对象一致性方面也优于一众开源模型，即使在这些模型的专长领域内也是如此。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第29张

数据构建：从零开始，融合视觉灵感

实现如此强大功能的最大挑战在于训练数据。

显然，现成世界中不存在海量的“（源图像+参考图像+指令）-> 目标图像”数据对。

为解决这一问题，研究团队设计了一套三阶段数据构建范式，为DreamOmni2“量身定制”高质量教材。

第一阶段：创造高质量的概念对

团队利用基础模型的文生图能力，提出新颖的特征混合方案。

它能在生成图像过程中交换两个生成分支的注意力特征，从而创造包含相同具体物体或抽象属性的高质量图像对。

相比过去拼接图像的方法，此方案生成图像分辨率更高、质量更好，完全避免了边缘内容混淆问题。

第二阶段：生成多模态“编辑”数据

利用第一阶段数据，团队先训练“提取模型”。该模型能从图像中精准“提取”物体或抽象属性，并根据指令生成新参考图。

随后，他们使用基于指令的编辑模型，修改目标图像中提取的物体或属性，从而创造“源图像”。

这样，完整的编辑训练数据对诞生：（源图像 + 编辑指令 + 参考图像）-> 目标图像。

第三阶段：创建多模态“生成”教材

在第二阶段基础上，团队再次使用“提取模型”，从源图像提取更多物体或属性，生成更多参考图像。

这样，构成用于多模态生成的训练数据：（多张参考图像 + 生成指令）-> 目标图像。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第30张

通过三阶段流水线，团队成功构建了多样化、高质量的综合数据集，涵盖具体物体和抽象属性（如局部和全局属性）的生成和编辑，并支持多个参考图像输入。

DreamOmni2：AI多模态编辑与生成的革命性突破 AI图像生成多模态编辑抽象概念处理 DreamOmni2 第31张

多模态指令编辑和生成训练数据的分布和样本

框架革新：让模型真正理解多图像输入

有了数据，还需要能“消化”数据的模型框架。

然而，当前SOTA的统一生成和编辑模型（如FLUX Kontext）不支持多图像输入。

为此，团队对框架进行两项关键创新及相应训练机制：

1. 索引编码与位置编码移位

为让模型准确区分多个参考图像并理解指令中对它们的引用（如图像1、图像2），引入索引编码和位置编码偏移方案。

索引编码帮助模型识别输入图像索引，位置编码根据先前输入大小偏移，从而防止像素混淆和生成结果中出现复制粘贴伪影。

两者结合，让模型能清晰、准确处理多图像输入。

2. 视觉语言模型（VLM）与生成模型的联合训练

现实世界中，用户指令往往不规范甚至逻辑混乱；而模型训练指令是结构化的。

为弥合这一鸿沟，团队创新性提出联合训练方案，显著提升模型理解用户意图能力，增强真实应用场景性能。

具体而言，他们让强大VLM（Qwen2.5-VL）先理解用户复杂指令，并将其“翻译”成模型能理解的结构化格式，最后交由生成/编辑模型执行。

3. LoRA微调

在训练策略上，团队采用LoRA微调方法。好处是在不影响模型原有强大能力基础上，使其多模态能力（多图输入和编辑/生成）能在检测到参考图像时无缝激活，同时保留基础模型原始指令编辑能力。

AI创作的下一个前沿

DreamOmni2的出现代表AI创作工具发展的重要方向：从单一语言模态走向真正多模态、多概念融合。

研究团队通过提出两项全新、高度实用的任务，并为此构建完整数据流水线和创新模型框架，成功推动生成式AI的技术边界。

对于设计师、艺术家和每个热爱创作的普通人来说，一个更智能、更全能的创作时代正加速到来。

参考链接：

https://arxiv.org/html/2510.06679v1

https://pbihao.github.io/projects/DreamOmni2/index.html

https://github.com/dvlab-research/DreamOmni2

https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit

https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen

https://www.youtube.com/watch?v=8xpoiRK57uU

服务器教程免费vps 性价比vps

本文由主机测评网于2026-01-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260117332.html

DreamOmni2：AI多模态编辑与生成的革命性突破

开源版Nano Banana，但实力更胜一筹

实验验证：AI学会“照样子改”的能力

数据构建：从零开始，融合视觉灵感

框架革新：让模型真正理解多图像输入

AI创作的下一个前沿

参考链接：

Linux开发必备工具全解析：（Git版本控制与GDB调试实战指南）

抖音电商大规模下线类目，强化风险防控与本地生活服务调整

DreamOmni2：AI多模态编辑与生成的革命性突破

开源版Nano Banana，但实力更胜一筹

实验验证：AI学会“照样子改”的能力

数据构建：从零开始，融合视觉灵感

框架革新：让模型真正理解多图像输入

AI创作的下一个前沿

参考链接：

Linux开发必备工具全解析：（Git版本控制与GDB调试实战指南）

抖音电商大规模下线类目，强化风险防控与本地生活服务调整

相关文章