AI创作新突破：DreamOmni2实现多模态编辑与生成

AI创作的未来，是让AI直接“看懂”你的灵感，而非揣摩指令。正如你永远无法精确描述梵高的笔触或王家卫的光影。

AI图像模型正以惊人的速度发展！

年初，GPT-4o引领了一股“吉卜力”热潮。而最近，Nano Banana生成的3D手办更是风靡全网。

AI创作新突破：DreamOmni2实现多模态编辑与生成 AI创作多模态指令编辑抽象概念第1张然而，你是否注意到一个“关键点”：这些生成与编辑大多集中在指令编辑与实体概念的组合生成上。若作为智能创作工具，尚有不足。

试想，你希望将一张照片中人物的背包换成另一张照片里裙子的图案——那波西米亚风格的复杂图案，你该如何用语言精确描述给AI呢？

答案是：几乎不可能。

更进一步，当你借鉴的不是物体，而是抽象的“感觉”——比如一张老照片的“复古胶片感光影”，或某位画家的“笔触风格”，那些仅擅长提取和复制具体物体的模型便束手无策。

若AI既能理解人类语言，又能精准捕捉这些抽象风格，该有多好！

最近，这一瓶颈被港科大贾佳亚团队突破。他们的研究在Github两周内收获1.6K星标，被众多国外创作者分享在YouTube和论坛上，引发大量讨论。

研究论文名为《DreamOmni2: Multimodal Instruction-based Editing and Generation》，AI掌握了针对“抽象概念”的多模态编辑与生成能力。

·项目主页：https://pbihao.github.io/projects/DreamOmni2/index.html

·代码仓库：https://github.com/dvlab-research/DreamOmni2

基于强大的FLUX Kontext模型，DreamOmni2不仅保留了顶尖的文生图与指令编辑能力，还新增了处理多个参考图像的能力，成为更智能的创作工具。

它不仅在传统任务上显著优于现有开源模型，更在全新抽象概念处理任务上展现出超越谷歌最强Nano Banana的实力。

开源版Nano Banana，但更强

接下来是实测展示：

首先，输入一个产品，让角色来“带货”。

Prompt：

The character from the first image is holding the item from the second picture.

“让图1角色拿着图2物品。”

AI创作新突破：DreamOmni2实现多模态编辑与生成 AI创作多模态指令编辑抽象概念第3张结果令人惊艳：表情、头发、手指细节及衣服质感均完美呈现，产品也融入得当。

...（更多实测内容省略）...