今年6月,阶跃星辰首席科学家张祥雨在访谈中谈及了他在近两年模型训练中遇到的最大困境——多模态AI的内部,一直有一场“内战”。
具体来说,在大一统多模态模型训练中,视觉的“理解”与“生成”能力可以共存,却鲜少协作,甚至时常内耗。联合训练时,一方能力的提升还会导致另一方性能下降。
这与我们的认知背道而驰。对人类而言,对画面的理解越深入,作画也就更精妙。但在多模态模型中,理解和生成之间并未形成有效的“信息增益”和“相互促进”。
张祥雨对此的解释是,图像生成非常复杂,需要复杂的空间规划、物理常识和语义推理。而Transformer模型虽然强大,但它在一次前向传播中能执行的逻辑推理步骤是有限的。若让它根据“画一个宇航员在月球骑方形轮子的自行车”这个指令,一次性生成符合所有物理、几何、语义约束的图像,难度极大。
训练过程中,由于这种单次推理,导致梯度信号太粗糙,训练出来的理解模型无法给生成模型有效指导,反之亦然。生成模块的失败也无法有效帮助理解模块进步。
因此张祥雨给出的解决方法是多模态模型应像语言推理一样,引入“思维链”(Chain-of-Thought)。让模型分步骤思考和创作,从而规避单次推理导致的信号粗糙问题。
但最近,北大的一篇最新研究《理解与生成能真正互利,还是仅仅共存?》提出了一个名为UAE的全新框架,为这个问题提供了另一个解法。
附论文地址:https://arxiv.org/abs/2509.09666
张祥雨的思维链方案确实有其道理,但它主要解决的是单次推理的复杂度问题。而北大团队却发现了一个更根本的问题:理解和生成的训练目标本身就是割裂的。即使引入思维链,两个模块依然追求不同的KPI。
因此,UAE团队选择了一个更激进的路径:与其让模型分步思考同一个复杂任务,不如重新定义任务本身,让理解和生成成为同一个流程的两个环节。
要理解这篇论文的精妙之处,我们必须先弄清楚统一多模态模型旧方法的根本问题所在。
旧方法就像“双头政治”下的无尽内耗。
想象一个工坊里有两个大师傅,我们称他们为“理解工匠”和“生成工匠”。
“理解工匠”的KPI是语义抽象的准确性。他的任务是看懂一幅画并用最精炼、最准确的语言概括出其核心内容。他需要忽略细微变化抓住事物的本质和关系。因此他的工作是从具体到抽象的认知过程。
“生成工匠”的KPI是像素还原的保真度。他的任务是根据指令画一幅画。他的工作成果会被放在显微镜下检查。因此他必须极度关注细节、材质和物理世界的统计规律。为了足够还原他的逻辑是从抽象到具体的构建过程。
在过去许多“统一模型”的尝试中研究者们都是试图让同一个模型(拥有同一组核心参数)去同时扮演这两个角色并用这两套截然不同的KPI去考核他。
两个优化目标在底层逻辑上相互冲突它们的梯度更新在模型的参数空间中互相拉扯导致训练过程极不稳定最终往往是两头都做不好或者顾此失彼。
为了避免这种直接冲突一些工作选择了“解耦”(decouple)的策略。研究人员先独立地把“理解官”和“生成官”都单独训练到顶尖水平然后再建一个联络办公室(适配器模块)让他们进行有限的沟通。这种方式避免了内耗也确实让模型同时具备了两种能力。
但这是一种“貌合神离”的统一他们只是“共存”于同一个屋檐下并没有形成真正的协同效应和相互增益。
而新方法则是在“流水线作业”下的共同目标
面对“双头政治”的困境UAE框架的提出者们做出了一个根本性的变革:废除两套独立的KPI建立一条统一的流水线并设立一个唯一的、最终的质检标准。
这个思想的核心源自经典的“自编码器”(Auto-Encoder)模型。
自编码器的逻辑很简单:它由一个编码器(Encoder)和一个解码器(Decoder)组成。编码器负责将输入的数据(如一张图片)压缩成一个紧凑的、包含核心信息的表示(通常是一个向量)。解码器则负责读取这个压缩表示并尽力将它还原成原始的输入数据。
整个系统的训练目标只有一个:让还原后的输出与原始输入尽可能地相似。
UAE框架巧妙地将这个结构映射到了理解与生成的任务上。
理解即是编码(压缩工序):在流水线上用Qwen-2.5-VL 3B训练的“理解模型”扮演了编码器角色。作为流水线的第一道工序它接收一张原始图像然后将其所有关键的、可描述的语义信息无损地“压缩”成一段详尽的、结构化的文字描述。这段文字就是这张图像的核心信息表示。
生成即是解码(还原工序):用SD3.5-large训练的“生成模型”扮演了解码器角色是流水线的第二道工序。它接收上一道工序产出的文字描述唯一的任务就是根据这段信息将原始图像“解压”并重建出来。
在这条流水线上旧的矛盾被彻底化解了。两位工匠有了一个共同的KPI:保证流水线终端产出的“重建图像”能够完美还原最初投入的原始图像。
设计出“流水线”这个全新的组织架构只是第一步更关键的问题是:如何训练这条流水线上的两位工匠让他们从新手成长为大师并最终达成完美的默契?
UAE提出了一个名为Unified-GRPO的三阶段训练策略实现了理解和生成的"左右循环两向加强"。
阶段一:冷启动重建(岗前培训与初步对齐)
就像两个陌生人需要先建立基本的沟通默契一样理解和生成模块首先需要在一个宽松的环境中建立初步的协作关系。
在这个阶段系统会接收一张原始图像由“理解模块”生成描述再由“生成模块”重建图像。然后直接根据重建图像和原始图像的语义相似度计算一个基础的损失并用这个损失同时更新两个模块的参数。
这个阶段的目标很简单:确保生成模块能够从理解模块的输出中重构出语义上相近的图像建立起基本的信息传递通道。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441632.html