AI创作的未来在于直接领悟灵感,而非机械执行指令。正如梵高的独特笔触或王家卫的经典光影,这些抽象美感难以用语言精确描述。
AI图像生成技术正迎来爆发式增长!
今年初,GPT-4o掀起了一股“吉卜力”动画风格的热潮。
近期,全网又疯狂追捧Nano Banana生成的3D手办模型。
然而,细心的用户可能发现了一个“关键点”:
这些统一的生成与编辑功能,大多聚焦于指令编辑与实体概念的组合;若想作为智能创作工具,仍存在明显不足。
试想,你希望将一张照片中人物的背包,替换成另一张照片里裙子的复杂图案。如何用语言向AI精确描述那种不规则、充满艺术感的波西米亚风格纹样?
答案几乎是:不可能完成的任务。
更进一步,当你想借鉴的并非具体物体,而是一种抽象的“感觉”——
比如,一张老照片的“复古胶片光影质感”,或某位画家的“独特笔触风格”,那些仅擅长提取和复制实体的模型便无能为力。
如果AI既能理解人类语言,又能精准捕捉这些抽象风格,该有多好!
最近,这个技术瓶颈被港科大贾佳亚领衔的AI研究团队突破。相关成果在Github上两周内获得1.6K星标,被众多国外创作者分享于YouTube和论坛,引发广泛热议。
在一篇题为“DreamOmni2: Multimodal Instruction-based Editing and Generation”的论文中,AI获得了针对“抽象概念”的多模态编辑与生成能力。
·论文地址:
https://arxiv.org/html/2510.06679v1
·项目主页:
https://pbihao.github.io/projects/DreamOmni2/index.html
·代码仓库:
https://github.com/dvlab-research/DreamOmni2
基于强大的FLUX Kontext模型,DreamOmni2在保留顶尖文生图与指令编辑能力的同时,新增了处理多个参考图像的功能,使其成为更智能的创作工具。
它不仅在传统任务上显著优于现有开源模型,更在全新的抽象概念处理任务上,展现出超越谷歌最强Nano Banana的性能。
实践出真知,我们直接进行实测。
首先尝试经典场景:输入一个产品,让角色“带货”。
提示词:
The character from the first image is holding the item from the second picture.
让图1中的角色,手持图2中的物品。
生成结果中,表情、头发、手指细节及衣服质感都近乎完美。
同时,产品本身也融合得天衣无缝。
接下来,测试三次元效果——将图1中的男子替换为图2中的女子。
结果令人惊叹!
生成图片中,背景山峦和赛博感光线效果几乎完美继承,人物身前的文字毫无影响。
人物方面,衣服和发型与原图2一致,面部光线则模仿了图1的效果。
表现十分出色。
在光线渲染方面,我们增加难度,让模型将图2中的红蓝风格迁移到图1上。
提示词:
Make the first image has the same light condition as the second image.
让图1的光照条件与图2保持一致。
DreamOmni2不仅保持了图1原有的格栅状光照,融合后的红蓝对比也极其鲜明。
相比之下,GPT-4o(下图左)仅迁移了色调,光影效果未保留。Nano Banana(下图右)略有变色,但变化不大。
风格迁移更是轻而易举。
提示词:
Replace the first image have the same image style as the second image.
将图1处理成与图2相同的风格
像素风的鸡——成功实现。
二次元风的小姐姐——完美生成。(效果惊艳)
图案、文字迁移也毫无压力。
提示词:
On the cup, "Story" is displayed in the same font style as the reference image.
在杯子上用参考图里的同款字体显示“Story”字样
此外,DreamOmni2还擅长动作模仿。
提示词:
Make the person from the first image has the same pose as person from the second image.
让图1里的人模仿图2中的姿势
在DreamOmni2生成的结果中,胳膊和腿的动作基本完美复刻了图2。
但略有不足的是,人物的方向和手部细节稍有差异。
不过,相比在语义理解上出现重大问题的开源模型FLUX Kontext,其优势明显。
如下图所示,Kontext未能理解“第一张图”、“第二张图”及调整姿势的指令,直接复制了图2。
闭源模型方面,GPT-4o(下图左)动作模仿较到位,但面部一致性不佳。
而Nano Banana(下图右)则略显抽象,生成了“三体人”效果。
除了身体动作,DreamOmni2在面部微表情和发型编辑上也精准稳定。
提示词:
Make the person in the first image have the same expression as the person in the second image.
让图1里的人做出和图2相同的表情。
嘴巴张开幅度、眼睛眯起程度几乎一模一样,笑容非常灿烂。
这种效果若仅靠语言描述,极难实现。
提示词:
Make the person in the first image have the same hairstyle as the person in the second image.
给图1里的人换上和图2中一样的发型
背景沙发、人物动作、衣物都保持不变;仅头发从黑色短发变为金色长卷发。
注意脖子处,因头发遮挡产生的阴影也自然呈现。
值得一提的是,DreamOmni2的多图编辑能力非常强大。
例如,让图1的鹦鹉戴上图2的帽子,并模仿图3的氛围与色调。
可以看到,鹦鹉羽毛、帽子颜色及整个背景氛围都完美复刻了上图中的火箭图片。
再增加难度:输入4张图,让模型将前3张图组合,并改为图4的风格。
女生衣服条纹、男生络腮胡、小狗品种都完美迁移。
同时,画中的笔触和色彩运用也得到了忠实呈现。
国外网友体验后纷纷表示惊艳。
甚至有人制作教程,直言“别再用Nano Banana了,DreamOmni2 ComfyUI才是最强的免费工作流!”
更多实测可见:
· Huggingface EditingDemo:
https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
·Huggingface Generation Demo:
https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
·Video Demo:
https://www.youtube.com/watch?v=8xpoiRK57uU
为真实展示DreamOmni2性能,研究团队专门构建了全新的DreamOmni2基准测试集,包含205个多模态指令编辑测试用例和114个指令生成测试用例。
重点考察多模态指令生成以及“抽象属性”与“具体物体”的混合编辑。
DreamOmni2基准测试中多模态指令生成及编辑示例
在多模态指令编辑测试中,相比业界顶流GPT-4o和Nano Banana,DreamOmni2显示出更精确的编辑结果和更好的一致性。
除了编辑指令执行率,GPT-4o和Nano Banana还存在小问题,如常引入意外改动或不一致。例如,换姿势时连衣服也更换。
在纵横比方面,GPT-4o仅支持三种输出,而Nano Banana难以控制。
有趣的是,GPT-4o处理后的图片会“莫名发黄”。
相比之下,DreamOmni2无这些问题。
多模态指令编辑的视觉比较
定量分析表格也反映了这些优势。
DreamOmni2在“具体物体”和“抽象属性”上得分最高,部分方面超越GPT-4o和Nano Banana。
在多模态指令生成方面,DreamOmni2表现同样出色。
实测表明,此前开源模型在生成抽象属性上十分困难。
例如下图第四行,将照片中的狗抽象成素描风格,几个开源模型几乎“无动于衷”。
相比之下,DreamOmni2不仅显著领先开源模型,还达到与GPT-4o和Nano Banana相当甚至更好的水平。
多模态指令生成可视化对比
定量评估中,DreamOmni2在人工评估和AI模型评估中均优于商业模型Nano Banana,与GPT-4o结果相当。
在生成准确性和对象一致性方面也优于一众开源模型,即使在这些模型的专长领域内也是如此。
实现如此强大功能的最大挑战在于训练数据。
显然,现成世界中不存在海量的“(源图像+参考图像+指令)-> 目标图像”数据对。
为解决这一问题,研究团队设计了一套三阶段数据构建范式,为DreamOmni2“量身定制”高质量教材。
第一阶段:创造高质量的概念对
团队利用基础模型的文生图能力,提出新颖的特征混合方案。
它能在生成图像过程中交换两个生成分支的注意力特征,从而创造包含相同具体物体或抽象属性的高质量图像对。
相比过去拼接图像的方法,此方案生成图像分辨率更高、质量更好,完全避免了边缘内容混淆问题。
第二阶段:生成多模态“编辑”数据
利用第一阶段数据,团队先训练“提取模型”。该模型能从图像中精准“提取”物体或抽象属性,并根据指令生成新参考图。
随后,他们使用基于指令的编辑模型,修改目标图像中提取的物体或属性,从而创造“源图像”。
这样,完整的编辑训练数据对诞生:(源图像 + 编辑指令 + 参考图像)-> 目标图像。
第三阶段:创建多模态“生成”教材
在第二阶段基础上,团队再次使用“提取模型”,从源图像提取更多物体或属性,生成更多参考图像。
这样,构成用于多模态生成的训练数据:(多张参考图像 + 生成指令)-> 目标图像。
通过三阶段流水线,团队成功构建了多样化、高质量的综合数据集,涵盖具体物体和抽象属性(如局部和全局属性)的生成和编辑,并支持多个参考图像输入。
多模态指令编辑和生成训练数据的分布和样本
有了数据,还需要能“消化”数据的模型框架。
然而,当前SOTA的统一生成和编辑模型(如FLUX Kontext)不支持多图像输入。
为此,团队对框架进行两项关键创新及相应训练机制:
1. 索引编码与位置编码移位
为让模型准确区分多个参考图像并理解指令中对它们的引用(如图像1、图像2),引入索引编码和位置编码偏移方案。
索引编码帮助模型识别输入图像索引,位置编码根据先前输入大小偏移,从而防止像素混淆和生成结果中出现复制粘贴伪影。
两者结合,让模型能清晰、准确处理多图像输入。
2. 视觉语言模型(VLM)与生成模型的联合训练
现实世界中,用户指令往往不规范甚至逻辑混乱;而模型训练指令是结构化的。
为弥合这一鸿沟,团队创新性提出联合训练方案,显著提升模型理解用户意图能力,增强真实应用场景性能。
具体而言,他们让强大VLM(Qwen2.5-VL)先理解用户复杂指令,并将其“翻译”成模型能理解的结构化格式,最后交由生成/编辑模型执行。
3. LoRA微调
在训练策略上,团队采用LoRA微调方法。好处是在不影响模型原有强大能力基础上,使其多模态能力(多图输入和编辑/生成)能在检测到参考图像时无缝激活,同时保留基础模型原始指令编辑能力。
DreamOmni2的出现代表AI创作工具发展的重要方向:从单一语言模态走向真正多模态、多概念融合。
研究团队通过提出两项全新、高度实用的任务,并为此构建完整数据流水线和创新模型框架,成功推动生成式AI的技术边界。
对于设计师、艺术家和每个热爱创作的普通人来说,一个更智能、更全能的创作时代正加速到来。
https://arxiv.org/html/2510.06679v1
https://pbihao.github.io/projects/DreamOmni2/index.html
https://github.com/dvlab-research/DreamOmni2
https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
https://www.youtube.com/watch?v=8xpoiRK57uU
本文由主机测评网于2026-01-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260117332.html