【导读】浙江大学ReLER团队新开源的ContextGen框架,成功攻克多实例图像生成中的布局与身份协同控制难题。基于Diffusion Transformer架构,通过创新的双重注意力机制,实现精准布局锚定与身份高保真隔离。在基准测试中,超越开源SOTA模型,与GPT-4o等闭源系统比肩,为定制化AI图像生成带来新纪元。
在定制化AI图像生成领域,多实例图像生成(MIG)面临双重挑战:精确布局控制和多主体身份保真的同步实现。现有方法常难以兼顾二者。
为破解这一瓶颈,浙江大学ReLER团队推出ContextGen框架,首次在Diffusion Transformer (DiT) 架构内,通过双重上下文注意力机制实现架构级分层解耦控制。在基准测试中,ContextGen在身份保持能力上超越SOTA开源模型,成功与GPT-4o及Nano-Banana等强大闭源系统相媲美,实现了复杂定制化控制的关键突破。
论文地址:https://arxiv.org/abs/2510.11000
代码地址:https://github.com/nenhang/ContextGen
当前MIG模型在实际应用中,面临布局精准度与身份保真度协同控制的挑战:
宏观布局难以固定:即使模型提供布局控制功能,生成的多个实例也难以精确锚定到指定位置,属性泄露和实例遗失频发,导致图像构图混乱。
身份细节易丢失:多主体定制虽受支持,但主体增加时,身份细节丢失概率显著上升,无法忠实还原每个实例的独特特征。
ContextGen的核心在于利用注意力机制控制的上下文学习,协同解决这两大问题,并在多个关键基准上达到新SOTA水平。
ContextGen框架基于DiT架构构建,整合所有输入为统一Token序列T。创新之处在于DiT模块中嵌入两个功能各异的「注意力核」。
机制:MCLA注意力掩码允许查询Token q与所有文本、图像和布局Token广泛通信。
效果:在DiT模块前置和后置层建立宏观约束,确保实例能鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导适配现有DiT上下文学习机制,有效提升布局控制准确性。
身份一致性注意力 (Instance Consistency Attention, ICA)机制解决多主体身份混淆与丢失问题:
机制:隔离式注意力掩码MICA限制查询Token q仅关注自身区域、文本T及对应参考图像,切断不同实例身份Token的交叉通信。
效果:为每实例创造「注意力孤岛」,保障多主体身份信息的高保真隔离。此机制在实例重叠、压缩等复杂场景中有效缓解身份信息丢失问题,同时维持鲁棒的身份保真度。
DPO强化学习:引入直接偏好优化(DPO),解决布局僵硬复制问题,增强生成图像的多样性和自然度。
IMIG-100K数据集:团队同步发布IMIG-100K,首个含详细布局与身份标注的大规模高质量多实例合成数据集。
ContextGen在布局精度和身份保持上取得突破:
布局精度提升:在COCO-MIG基准上,空间准确性(mIoU)提升+5.9%,验证ContextGen在精确构图上的领先地位。
身份保持突破:在LAMICBench++测试中,ContextGen在较多主体下的身份保真度(IDS)比肩甚至超越GPT-4o等闭源模型。这一关键结果证明ContextGen在复杂多主体场景中对细节的高保真还原能力。
定性结果显示,ContextGen能还原细粒度面部特征,灵活融合不同风格参考图像,并遵循用户布局设计要求。
团队开发简单前端界面,用户可上传参考图像,设计布局,便捷生成多实例图像。
本文由主机测评网于2026-05-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546765.html