当前位置：首页 > 科技资讯 > 正文

DreamOmni2：多模态AI图像编辑与生成的革命性突破

主机测评网
科技资讯
2026-01-13
384

近期，人工智能创作领域掀起一股热潮，「Photoshop已死」成为热议焦点，标志着传统专业软件正面临AI技术的强劲冲击。

随着图像编辑与生成模型进入新一轮爆发期，这款长期占据王座的创意工具遭遇前所未有的挑战，其地位开始动摇。

引领多模态生图技术升级的谷歌Nano Banana，以及字节跳动的Seedream4.0、阿里巴巴的Qwen-Image-Edit-2509等模型，不断涌现新能力，如OOTD穿搭、文字渲染、电影分镜生成等。这些模型让创作者无需深度修图技能，便能更专注于如何使生成结果更具可控性、创意性和产品化价值。

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第1张

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第2张

从技术路线看，以Nano Banana为代表的模型通过多模态指令，融合语言理解、视觉识别与生成控制，实现更自然的创作体验。然而，随着应用场景拓展，这类指令驱动的编辑与生成逐渐暴露出局限，如指令描述模糊、依赖参考图像，以及处理抽象概念（如发型、妆容、纹理、打光、风格）时的不足。

两周前，港科大讲座教授、冯诺依曼研究院院长贾佳亚团队开源了最新成果DreamOmni2，专门针对多模态指令编辑与生成的短板进行系统性优化。该系统基于FLUX-Kontext训练，保留原有指令编辑与文生图能力，并拓展多参考图生成编辑功能，赋予创作者更高灵活性与可玩性。

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第3张

据团队介绍，无论是具体物体还是抽象概念的编辑与生成，DreamOmni2均显著优于当前SOTA开源模型，某些方面甚至超越Nano Banana。以下效果示例展示了其强大能力：基于指令的多模态编辑中，它能将源图像中女子的帽子配色替换为参考图像中毛衣的配色方案；在生成任务中，可结合多图指令生成复杂场景。

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第4张

DreamOmni2迅速引发海外创作者关注，被誉为“King Bomb”，其抽象概念理解能力备受称赞。YouTube上涌现大量介绍视频，开源两周内GitHub Star量达1.6k。

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第5张

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第6张

代码已开源，地址为：https://github.com/dvlab-research/DreamOmni2。如果说Nano Banana开启了多模态AI图像编辑生成新纪元，DreamOmni2则将这一能力推向深水区，提供语义理解更全面、创意延展性更强的智能引擎。

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第7张

一手实测显示，DreamOmni2在基于指令的多模态编辑中，能精准替换背景、转换风格，细节保留出色；在生成任务中，可准确融合徽标、转换姿态，效果自然。与GPT-4o和Nano Banana对比，DreamOmni2在衣物替换、抽象概念处理上表现更优，画面协调性更强。

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第8张

技术层面，DreamOmni2通过三阶段数据构建范式、多参考图索引编码优化以及VLM与生成模型联合训练，打通多模态生成全链路。其数据构建涵盖具体物体与抽象属性，框架设计支持多参考图输入，训练机制提升对复杂指令的理解，从而在编辑与生成任务中实现新的SOTA性能。

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第9张

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第10张

DreamOmni2：多模态AI图像编辑与生成的革命性突破 AI图像编辑多模态生成模型 DreamOmni2开源智能创意工具第11张

论文详情可访问：https://arxiv.org/pdf/2510.06679v1。DreamOmni2的发布是贾佳亚团队多模态技术栈的延续，从DreamOmni到MGM-Omni，团队已构建感知、理解与生成全链路能力。随着AI创作范式变革，这类开源工作将推动全球多模态生态演进，赋能创作者实现更深层次的人模共创。