当前位置:首页 > 科技资讯 > 正文

AI创作新突破:DreamOmni2实现多模态编辑与生成

AI创作的未来,是让AI直接“看懂”你的灵感,而非揣摩指令。正如你永远无法精确描述梵高的笔触或王家卫的光影。

AI图像模型正以惊人的速度发展!

年初,GPT-4o引领了一股“吉卜力”热潮。而最近,Nano Banana生成的3D手办更是风靡全网。

AI创作新突破:DreamOmni2实现多模态编辑与生成 AI创作 多模态 指令编辑 抽象概念 第1张然而,你是否注意到一个“关键点”:这些生成与编辑大多集中在指令编辑与实体概念的组合生成上。若作为智能创作工具,尚有不足。

  • 当语言变得苍白无力。

试想,你希望将一张照片中人物的背包换成另一张照片里裙子的图案——那波西米亚风格的复杂图案,你该如何用语言精确描述给AI呢?

答案是:几乎不可能。

  • 当灵感并非实体物体。

更进一步,当你借鉴的不是物体,而是抽象的“感觉”——比如一张老照片的“复古胶片感光影”,或某位画家的“笔触风格”,那些仅擅长提取和复制具体物体的模型便束手无策。

若AI既能理解人类语言,又能精准捕捉这些抽象风格,该有多好!

最近,这一瓶颈被港科大贾佳亚团队突破。他们的研究在Github两周内收获1.6K星标,被众多国外创作者分享在YouTube和论坛上,引发大量讨论。

研究论文名为《DreamOmni2: Multimodal Instruction-based Editing and Generation》,AI掌握了针对“抽象概念”的多模态编辑与生成能力。

AI创作新突破:DreamOmni2实现多模态编辑与生成 AI创作 多模态 指令编辑 抽象概念 第2张论文地址:https://arxiv.org/html/2510.06679v1

·项目主页:https://pbihao.github.io/projects/DreamOmni2/index.html

·代码仓库:https://github.com/dvlab-research/DreamOmni2

基于强大的FLUX Kontext模型,DreamOmni2不仅保留了顶尖的文生图与指令编辑能力,还新增了处理多个参考图像的能力,成为更智能的创作工具。

它不仅在传统任务上显著优于现有开源模型,更在全新抽象概念处理任务上展现出超越谷歌最强Nano Banana的实力。

开源版Nano Banana,但更强

接下来是实测展示:

首先,输入一个产品,让角色来“带货”。

Prompt:

The character from the first image is holding the item from the second picture.

“让图1角色拿着图2物品。”

AI创作新突破:DreamOmni2实现多模态编辑与生成 AI创作 多模态 指令编辑 抽象概念 第3张结果令人惊艳:表情、头发、手指细节及衣服质感均完美呈现,产品也融入得当。

...(更多实测内容省略)...