当前位置:首页 > 科技资讯 > 正文

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破

一款在图像细节处理上超越Nano Banana的新型编辑模型现已问世,尤其具备出色的中文语义理解能力。

例如,当用户指令要求“将中间身着白色衣服、佩戴口罩的女生的手势调整为OK姿势”时,原始图像如下所示:

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第1张

这个名为UniWorld-V2的模型能够精确无误地完成此项修改任务。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第2张

相比之下,Nano Banana模型未能准确理解并执行该提示词的编辑意图。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第3张

该模型是兔展智能与北京大学UniWorld团队最新研发的技术成果:

团队创新性地提出了名为UniWorld-R1的图像编辑后期训练框架,该框架首次将强化学习(RL)策略优化方法应用于统一架构的图像编辑模型,构成了首个视觉强化学习框架。以此为基础,他们推出了新一代模型UniWorld-V2。

UniWorld-V2在GEdit-Bench和ImgEdit等业界权威评测基准中取得了领先的SOTA性能,综合表现超越了包括OpenAI的GPT-Image-1在内的多个顶尖闭源模型。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第4张

以下为详细技术解析。

卓越的中文字体处理能力与精细化空间控制

在功能层面,UniWorld-V2在实际应用场景中展现了监督微调模型难以达到的精细控制能力。

中文字体精准渲染

研究论文中的“海报编辑”示例显示,模型能够精确理解用户指令,并生成如“月满中秋”和“月圆人圆事事圆”等笔画复杂的艺术中文字体,输出结果清晰且语义准确。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第5张

该模型能够实现指定文字的任意修改,仅需简单的自然语言指令即可完成。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第6张

精细化空间约束编辑

在“红框控制”任务中,用户可通过绘制红色矩形框来精确指定编辑区域,模型能严格遵循该空间约束,实现诸如“将鸟类移出红色框外”等高难度精细化操作。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第7张

全局光影自然融合

模型能够深入理解“为场景重新布置光照”等复杂指令,使添加的物体自然地融入原有环境,显著提升画面的整体统一性与和谐度,实现极高的光影融合效果。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第8张

关键技术革新:UniWorld-R1训练框架

实现上述功能的核心在于研究团队提出的UniWorld-R1创新框架。

传统图像编辑模型普遍依赖监督微调,容易对训练数据产生过拟合,导致泛化能力不足。此外,面对多样化的编辑指令和任务,缺乏通用的奖励模型也成为一个主要瓶颈。

UniWorld-R1框架的核心优势体现在:

首个基于强化学习的统一架构:UniWorld-R1是行业内首个基于策略优化的图像编辑后期训练框架。它采用了扩散负向感知微调技术,这是一种无需进行似然估计的策略优化方法,训练效率更高,并支持使用高阶采样器。

使用MLLM作为免训练奖励模型:针对编辑任务多样性导致的通用奖励模型缺失问题,UniWorld-R1开创性地将多模态大语言模型作为统一且无需额外训练的奖励模型。通过利用MLLM输出的逻辑值而非单一分数来提供细粒度的隐式反馈,极大地增强了模型与人类编辑意图的对齐能力。

如下图所示,UniWorld-R1的工作流程主要包括三个核心环节:采样、MLLM评分和扩散负向感知微调,这三个步骤协同作用,逐步将模型优化至最佳策略。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第9张

性能全面领先,评测分数独占鳌头

在实验部分,研究团队构建了一个包含27572个基于指令的编辑样本的数据集。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第10张

这些样本源自LAION、LexArt和UniWorldV1。为了增强任务多样性,额外加入了文本编辑和红框控制任务,最终形成了九种不同的任务类型。

研究团队以FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509]和UniWorld-V2作为基础模型进行训练,并采用ImgEdit和GEdit-Bench作为测试基准。前者将多种专项任务统一到一个通用框架中进行综合模型比较,后者则通过丰富的自然语言指令集来评估通用图像编辑能力。

在GEdit-Bench基准测试中,UniWorld-V2(基于UniWorld-R1训练)获得了7.83的高分,显著优于GPT-Image-1 [High]的7.53分和Gemini 2.0的6.32分。在ImgEdit基准上,UniWorld-V2同样以4.49分的成绩位居榜首,超越了所有已知的开源与闭源模型。

更为重要的是,UniWorld-R1框架展现出极强的通用性。当该框架应用于Qwen-Image-Edit和FLUX-Kontext等其他基础模型时,同样带来了显著的性能提升,充分证明了其作为通用后期训练框架的巨大潜力与价值。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第11张

该方法显著提升了所有基础模型在ImgEdit基准上的表现。对于FLUX.1-Kontext [Dev],其整体分数从3.71大幅提高至4.02,甚至超越了性能更强的Pro版本。同样,在应用于Qwen-Image-Edit [2509]时,该方法将其分数从4.35提升到4.48,达到了开源模型中的最先进水平,并超越了GPT-Image-1等顶级闭源模型。

除了总分的提升,UniWorld-FLUX.1-Kontext在“调整”、“提取”和“移除”等维度上表现出显著的性能进步,而UniWorld-Qwen-Image-Edit则在“提取”和“混合”维度上表现优异。此外,UniWorld-V2实现了最佳的综合性能。这表明该方法能够有效释放并显著提升基础模型中此前未被充分挖掘的潜力。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第12张

在域外数据分布的GEdit-Bench测试中,UniWorld-R1为三个模型均展示了强大的泛化能力。它使FLUX.1-Kontext [Dev]模型的总分从6.00提升至6.74,表现超越了其Pro版本。对于Qwen-Image模型,其得分从7.54增加至7.76。同时,UniWorld-V2在此基准测试中确立了新的性能标杆,超越了包括Qwen-Image-Edit和GPT-Image-1在内的所有列出的模型。这一结果证实该方法能有效保持并增强模型在未见数据分布上的核心编辑能力,展现了出色的泛化性能。

为了进行全面评估,研究人员还对FLUX.1和Qwen系列进行了人工偏好研究,参与者将经过本文方法微调的模型与其基础模型及更强大的官方版本进行对比。他们被要求在指令对齐度和图像质量两个维度上选择更优的结果。

用户在所有评估标准中都更倾向于选择UniWorld-FLUX.1-Kontext,而非原始的FLUX.1-Kontext [Dev]。此外,它在编辑能力上展现出明显优势,尤其是在与更强的官方版本FLUX.1-Kontext [Pro]的比较中。总体而言,UniWorld-FLUX.1-Kontext因其卓越的指令遵循能力而获得更多青睐,尽管官方版本在图像质量上略有优势。这证实了该方法能够有效地引导模型生成更符合人类偏好的输出结果。

UniWorld-V2图像编辑模型:强化学习驱动的中文细节控制新突破 UniWorld-V2 图像编辑模型 强化学习框架 中文优化 第13张

本次发布的UniWorld-V2,是基于团队早先的UniWorld-V1构建而成。UniWorld-V1作为业内首个统一理解与生成的模型,其开源时间领先于谷歌Nano Banana等后续知名模型长达三个月,为多模态领域的统一架构探索奠定了重要基础。

此外,UniWorld-R1的相关论文、代码和模型权重已在GitHub和Hugging Face平台全面公开,以促进后续研究。

论文地址:https://arxiv.org/abs/2510.16888

GitHub链接:https://github.com/PKU-YuanGroup/UniWorld