当前位置：首页 > 科技资讯 > 正文

UniWorld-V2：超越Nano Banana的图像编辑新纪元

主机测评网
科技资讯
2026-05-09
821

超越Nano Banana，UniWorld-V2以其卓越的性能引领图像编辑新纪元，更擅长处理细节，且深谙中文指令。

比如，用户请求AI将图中戴口罩的女生手势改为OK，原图为：

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第1张

UniWorld-V2能够完美执行这一修改：

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第2张

相比之下，Nano Banana未能捕捉用户的意图。

背后支撑这一成就的是兔展智能与北京大学UniWorld团队的最新技术结晶：

他们提出了名为UniWorld-R1的创新图像编辑后期训练框架，该框架首次将强化学习策略优化应用于统一架构的图像编辑模型。基于此，他们推出了新一代模型UniWorld-V2。

UniWorld-V2在GEdit-Bench和ImgEdit等权威基准测试中取得SOTA成绩，综合表现超越顶尖闭源模型如OpenAI的GPT-Image-1。

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第3张

让我们深入探讨其技术细节。

强大的中文字体掌握与精细化控制

UniWorld-V2在应用中展现了SFT模型难以比拟的精细化控制能力。

中文字体掌握

在“海报编辑”示例中，模型能精准理解指令，并渲染出“月满中秋”和“月圆人圆事事圆”等复杂艺术中文字体，效果清晰、语义准确。

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第4张

只需一句Prompt，就能实现精准的文字修改。

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第5张

精细化空间控制

“红框控制”任务中，用户可通过画框指定编辑区域，模型严格遵守空间限制，实现高难度精细操作。

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第6张

全局光影融合

模型能深刻理解“重新打光”等指令，使物体自然融入场景，画面更统一和谐。

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第7张

核心创新：UniWorld-R1框架

这些功能得益于研究团队的核心创新——UniWorld-R1框架。

传统图像编辑模型依赖监督微调（SFT），存在过拟合和泛化能力差的问题。UniWorld-R1是首个基于强化学习的统一架构，采用Diffusion Negative-aware Finetuning技术，无需似然估计，训练更高效。

MLLM作为免训练奖励模型：针对编辑任务多样性，UniWorld-R1使用多模态大语言模型（MLLM）作为统一、免训练的奖励模型，提供精细化隐反馈，提升模型对人类意图的对齐能力。

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第8张

全面超越SOTA，分数领跑

实验方面，研究团队整理了包含27572个基于指令的编辑样本数据集。

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第9张

这些样本来自LAION、LexArt和UniWorldV1。为了增强任务多样性，加入了额外的文本编辑和红框控制任务。研究团队训练了FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509]和UniWorld-V2作为基础模型，采用ImgEdit和GEdit-Bench作为测试基准。

在GEdit-Bench测试中，UniWorld-V2获得7.83分，远超GPT-Image-1（7.53分）和Gemini 2.0（6.32分）。在ImgEdit基准上，UniWorld-V2同样以4.49分领先。

UniWorld-V2：超越Nano Banana的图像编辑新纪元 UniWorld-V2 Nano Banana 图像编辑强化学习第10张