今年六月,阶跃星辰公司的首席科学家张祥雨在一次专访中分享了他近两年来在模型训练中遭遇的核心挑战——多模态人工智能内部始终存在一场“内战”。
具体表现为,在构建统一多模态模型时,视觉的“理解”与“生成”能力虽能共存,却缺乏协作,甚至经常相互冲突。在联合训练过程中,一方性能的提升往往会导致另一方性能的下降。
这与人类认知截然相反。对人类而言,对画面的理解越深入,创作绘画时可能更加精妙。但在多模态模型中,理解与生成之间未能形成有效的“信息增益”和“相互促进”机制。
张祥雨对此解释道,图像生成过程极为复杂,涉及复杂的空间规划、物理常识和语义推理。而Transformer模型尽管强大,但其单次前向传播所能执行的逻辑推理步骤有限。例如,要求模型根据“画一个宇航员在月球上骑方形轮子自行车”的指令,一次性生成符合所有物理、几何和语义约束的图像,难度极高。
在训练中,由于这种单次推理模式,梯度信号过于粗糙,导致理解模型无法有效指导生成模型,反之亦然,生成模块的失败也难以帮助理解模块进步。
因此,张祥雨提出的解决方案是在多模态模型中引入类似语言推理的“思维链”(Chain-of-Thought),让模型分步骤思考和创作,从而规避单次推理导致的信号粗糙问题。
然而,北京大学近期的一项研究《理解与生成能真正互利,还是仅仅共存?》提出了一个名为UAE的全新框架,为这一问题提供了另一种解答。
附论文地址:https://arxiv.org/abs/2509.09666
张祥雨的思维链方案虽有其合理性,但主要解决单次推理的复杂度问题。北大团队则发现了一个更根本的问题:理解与生成的训练目标本身是割裂的。即使引入思维链,两个模块仍在追求不同的优化目标。
因此,UAE团队选择了一条更激进的路径:与其让模型分步思考同一复杂任务,不如重新定义任务本身,让理解与生成成为同一流程的两个环节。
要领悟这篇论文的巧妙之处,需先厘清传统统一多模态模型的根本问题。
旧方法类似“双头政治”下的无尽内耗。
想象一个工坊中有两位大师傅,分别称为“理解工匠”和“生成工匠”。
“理解工匠”的目标是实现语义抽象的准确性。他的任务是解读一幅画,并用最精炼、准确的语言概括其核心内容。他需忽略细微变化,抓住事物本质和关系,因此其逻辑是从具体到抽象的认知过程。
“生成工匠”的目标是实现像素还原的保真度。他的任务是根据指令绘制一幅画,作品会被细致检查。他必须极度关注细节、材质和物理世界的统计规律,其逻辑是从抽象到具体的构建过程。
在过去许多“统一模型”尝试中,研究者试图让同一模型(共享一组核心参数)同时扮演这两个角色,并用两套截然不同的目标进行考核。
这两个优化目标在底层逻辑上相互冲突,其梯度更新在参数空间中相互拉扯,导致训练过程极不稳定,最终往往两者皆弱或顾此失彼。
为避免直接冲突,一些工作选择了“解耦”策略。研究人员先独立训练“理解官”和“生成官”至顶尖水平,再通过适配器模块进行有限沟通。这种方式避免了内耗,确实让模型同时具备两种能力。
但这只是一种“貌合神离”的统一,它们仅“共存”于同一架构下,并未形成真正的协同效应和相互增益。
而新方法则基于“流水线作业”下的共同目标
面对“双头政治”困境,UAE框架的提出者做出了根本性变革:废除两套独立目标,建立一条统一流水线,并设立唯一、最终的质检标准。
这一思想源于经典的“自编码器”模型。
自编码器的逻辑简单:它由编码器和解码器组成。编码器负责将输入数据(如图像)压缩成紧凑的、包含核心信息的表示(通常为向量)。解码器则负责读取该压缩表示,并尽力将其还原为原始输入数据。
整个系统的训练目标唯一:让还原后的输出与原始输入尽可能相似。
UAE框架巧妙地将此结构映射到理解与生成任务上。
理解,即编码(压缩工序):在流水线上,基于Qwen-2.5-VL 3B训练的“理解模型”扮演编码器角色,作为第一道工序。它接收原始图像,将其所有关键、可描述的语义信息无损“压缩”成一段详尽、结构化的文字描述。这段文字即图像的核心信息表示。
生成,即解码(还原工序):基于SD3.5-large训练的“生成模型”扮演解码器角色,作为第二道工序。它接收上一工序产出的文字描述,唯一任务是据此将原始图像“解压”并重建出来。
这条流水线上,旧矛盾被彻底化解。两位工匠有了共同目标:确保流水线终端产出的“重建图像”能完美还原最初投入的原始图像。
为何重构相似度是衡量统一性的好指标?
因为如果理解模块真正“懂”了原图,其描述就应包含所有关键信息。而如果生成模块真正“懂”了描述,就应能重现原图所有要素。因此,若重构图像与原图高度相似,说明信息在理解→文本→生成链路上实现了近乎无损传递。
设计“流水线”这一新组织架构只是第一步。更关键的是:如何训练流水线上的两位工匠,让他们从新手成长为大师,并达成完美默契?
UAE提出了名为Unified-GRPO的三阶段训练策略,实现了理解与生成的“左右循环,两向加强”。
阶段一:冷启动重建(岗前培训与初步对齐)
如同两个陌生人需先建立基本沟通默契,理解与生成模块首先需在宽松环境中建立初步协作关系。
在此阶段,系统接收原始图像,由“理解模块”生成描述,再由“生成模块”重建图像。然后,直接根据重建图像和原始图像的语义相似度计算基础损失,并用此损失同时更新两模块参数。
此阶段目标简单:确保生成模块能从理解模块的输出中重构出语义相近的图像,建立基本信息传递通道。
阶段二:生成服务理解,重点训练“理解工匠”
岗前培训结束后,真正专项训练开始。这是“左右循环”第一步,目标是将“理解工匠”训练成顶级沟通者。
训练流程如下:
1.冻结“生成工匠”:此阶段,“生成工匠”(生成模型)能力被暂时固定。它不再学习新技能,而是扮演水平稳定的“质量检验员”或“陪练员”。
2.“理解工匠”反复试错:现在,“理解工匠”(理解模型)是唯一学员。它接收原始图像,尝试生成描述。
3.陪练员执行:固定的“生成工匠”接过描述,并尽其所能重建图像。
4.教练打分:教练(强化学习算法)比较重建图像和原始图像,进行奖励和惩罚。
通过成千上万次循环,“理解工匠”被迫学习如何生成对“生成工匠”最友好的描述。这就是“两向加强”的第一个方向:生成的结果,反过来加强了理解的深度和精度。
阶段三:理解服务生成,重点训练“生成工匠”
当“理解工匠”经过特训,能稳定产出信息极其丰富的描述后,循环进入第二步。现在,目标是将“生成工匠”训练成顶级执行者。
训练流程与阶段二相反:冻结理解工匠,让生成工匠根据描述反复重建图像,优化技艺。
在此阶段,“生成工匠”被迫学习如何处理和执行长篇、充满约束的指令。这就是“两向加强”的第二个方向:精深的理解,反过来加强了生成对复杂指令的遵循能力。
第二阶段和第三阶段交替进行训练,形成正反馈循环:理解越精准,生成越准确;生成要求越高,理解越深入。在后两个阶段中,UAE使用了GRPO算法。
生成与理解交汇处的顿悟时刻
通过UAE新方法,当“左右循环、两向加强”训练体系运转后,模型行为自发涌现出利于协同的行为。在这些转折点上,理解模块出现了类似人类的“顿悟时刻”。
例如,理解模块生成的文字描述,在无外部指令下,变得越来越长、越详细。传统图像描述通常仅几个词,但UAE生成的平均超过250个英文单词的详细描述。
训练早期只有简短描述,主要包含基本对象和颜色;训练中期开始包含计数、空间关系等信息;最终,训练后期,模型已能详细描述材质(如“针织毛衣”)、遮挡关系(如“耳朵不可见”)、背景细节(如“模糊的公园背景”)、光照条件等。
这背后有精妙博弈机制。理解模块发现:描述越详细,生成质量越高,自身奖励越多——但并非随便加词,必须是对重构有帮助的细节。于是,它自动学习什么细节对生成最关键。而生成模块为利用这些丰富信息,也被迫提升长文本处理能力。
研究者将UAE理解模型生成的描述,与其他知名模型(如Bagel、OmniGen2)生成的描述比较,并请多个顶尖大语言模型(如GPT-4o、Claude-4.1)作为裁判。UAE的描述在完整性、属性绑定、关系和空间保真度等多方面更胜一筹。
生成方面,UAE取得了同模型SOTA成绩。在GenEval基准上,UAE获得0.86综合得分,在统一模型中排名第一,特别是在需要精确理解的计数(0.84)和颜色归因(0.79)任务上表现突出。在更具挑战性的复杂场景处理GenEval++基准(包含三个或更多对象的复杂场景)中,UAE也获得0.475的最佳得分。
这一结果明确证明:当给定正确目标和训练方法时,AI系统能够自发发现更有效的信息表示和传递策略。
UAE的思路看似简单,但对AI系统设计理念的转变极具价值。
UAE的成功证明,多个看似冲突的目标可通过合适框架实现融合协同。这不是简单的“多任务学习”,而是从根本上重新定义任务目标。
这说明或许“重新定义目标”比“优化算法”更重要。有时不是技术不够强,而是目标设错了。
在此例中,通过重设目标,相互竞争的任务可变成互相促进的伙伴。这种思路可能适用于更多AI任务的统一。
这场“内战”的终结,或许预示着一个新时代的开启。在这个时代里,AI的“看”与“画”、“听”与“说”,将不再是割裂的能力孤岛,而是一个无缝协作、相互促进的有机整体。
本文由主机测评网于2026-01-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260114142.html