AI创作的未来,是让AI直接“看懂”你的灵感,而非揣摩指令。正如你永远无法精确描述梵高的笔触或王家卫的光影。
AI图像模型正以惊人的速度发展!
年初,GPT-4o引领了一股“吉卜力”热潮。而最近,Nano Banana生成的3D手办更是风靡全网。
然而,你是否注意到一个“关键点”:这些生成与编辑大多集中在指令编辑与实体概念的组合生成上。若作为智能创作工具,尚有不足。
试想,你希望将一张照片中人物的背包换成另一张照片里裙子的图案——那波西米亚风格的复杂图案,你该如何用语言精确描述给AI呢?
答案是:几乎不可能。
更进一步,当你借鉴的不是物体,而是抽象的“感觉”——比如一张老照片的“复古胶片感光影”,或某位画家的“笔触风格”,那些仅擅长提取和复制具体物体的模型便束手无策。
若AI既能理解人类语言,又能精准捕捉这些抽象风格,该有多好!
最近,这一瓶颈被港科大贾佳亚团队突破。他们的研究在Github两周内收获1.6K星标,被众多国外创作者分享在YouTube和论坛上,引发大量讨论。
研究论文名为《DreamOmni2: Multimodal Instruction-based Editing and Generation》,AI掌握了针对“抽象概念”的多模态编辑与生成能力。
论文地址:https://arxiv.org/html/2510.06679v1
·项目主页:https://pbihao.github.io/projects/DreamOmni2/index.html
基于强大的FLUX Kontext模型,DreamOmni2不仅保留了顶尖的文生图与指令编辑能力,还新增了处理多个参考图像的能力,成为更智能的创作工具。
它不仅在传统任务上显著优于现有开源模型,更在全新抽象概念处理任务上展现出超越谷歌最强Nano Banana的实力。
接下来是实测展示:
首先,输入一个产品,让角色来“带货”。
Prompt:
The character from the first image is holding the item from the second picture.
“让图1角色拿着图2物品。”
结果令人惊艳:表情、头发、手指细节及衣服质感均完美呈现,产品也融入得当。
...(更多实测内容省略)...
本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543278.html