超越Nano Banana,UniWorld-V2以其卓越的性能引领图像编辑新纪元,更擅长处理细节,且深谙中文指令。
比如,用户请求AI将图中戴口罩的女生手势改为OK,原图为:
UniWorld-V2能够完美执行这一修改:
相比之下,Nano Banana未能捕捉用户的意图。
背后支撑这一成就的是兔展智能与北京大学UniWorld团队的最新技术结晶:
他们提出了名为UniWorld-R1的创新图像编辑后期训练框架,该框架首次将强化学习策略优化应用于统一架构的图像编辑模型。基于此,他们推出了新一代模型UniWorld-V2。
UniWorld-V2在GEdit-Bench和ImgEdit等权威基准测试中取得SOTA成绩,综合表现超越顶尖闭源模型如OpenAI的GPT-Image-1。
让我们深入探讨其技术细节。
UniWorld-V2在应用中展现了SFT模型难以比拟的精细化控制能力。
在“海报编辑”示例中,模型能精准理解指令,并渲染出“月满中秋”和“月圆人圆事事圆”等复杂艺术中文字体,效果清晰、语义准确。
只需一句Prompt,就能实现精准的文字修改。
“红框控制”任务中,用户可通过画框指定编辑区域,模型严格遵守空间限制,实现高难度精细操作。
模型能深刻理解“重新打光”等指令,使物体自然融入场景,画面更统一和谐。
这些功能得益于研究团队的核心创新——UniWorld-R1框架。
传统图像编辑模型依赖监督微调(SFT),存在过拟合和泛化能力差的问题。UniWorld-R1是首个基于强化学习的统一架构,采用Diffusion Negative-aware Finetuning技术,无需似然估计,训练更高效。
MLLM作为免训练奖励模型:针对编辑任务多样性,UniWorld-R1使用多模态大语言模型(MLLM)作为统一、免训练的奖励模型,提供精细化隐反馈,提升模型对人类意图的对齐能力。
实验方面,研究团队整理了包含27572个基于指令的编辑样本数据集。
这些样本来自LAION、LexArt和UniWorldV1。为了增强任务多样性,加入了额外的文本编辑和红框控制任务。研究团队训练了FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509]和UniWorld-V2作为基础模型,采用ImgEdit和GEdit-Bench作为测试基准。
在GEdit-Bench测试中,UniWorld-V2获得7.83分,远超GPT-Image-1(7.53分)和Gemini 2.0(6.32分)。在ImgEdit基准上,UniWorld-V2同样以4.49分领先。
此次发布的UniWorld-V2基于团队早先的UniWorld-V1构建。UniWorld-V1作为业内首个统一理解与生成的模型,其开源时间领先谷歌Nano Banana等后续知名模型三个月,为多模态领域的统一架构探索奠定重要基础。
UniWorld的论文、代码和模型已在GitHub和Hugging Face平台公开发布,以支持后续研究。
论文地址: https://arxiv.org/abs/2510.16888
GitHub链接: https://github.com/PKU-YuanGroup/UniWorld
本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543950.html