当前位置:首页 > 科技资讯 > 正文

LeJEPA:开创无需启发的自监督学习新纪元

《LeJEPA:开创无需启发的自监督学习新纪元》

“这或许是LeCun在Meta的绝响。”

LeJEPA:开创无需启发的自监督学习新纪元 LeJEPA 自监督学习 高斯嵌入 SIGReg 第1张

没错,这篇以“Le”开头的论文,介绍了一种新颖的自监督学习方法,于11月11日在arXiv提交,是LeCun的最新研究成果。

同样在这一天,他离开Meta的消息传开。

如果说LeCun在2013年加入Meta开启了AI研究的一个时代,那么LeJEPA就是他在Meta的告别之作。

LeJEPA究竟是怎样的一场“绝唱”?

LeJEPA:基于各向同性高斯嵌入的自监督学习方法

LeJEPA的核心在于提出一种基于各向同性高斯嵌入的自监督学习方法,通过引入SIGReg正则化,有效解决了表示崩溃问题,并显著提升了模型的泛化能力。

在传统的JEPA框架中,预测任务常面临表示崩溃的问题。

这意味着,在训练过程中,模型可能将所有输入映射到单一的点或低维空间,导致嵌入空间中的样本不可区分,从而无法有效捕捉样本间的语义差异。

针对这一问题,现有方法多依赖启发式技术,但这些方法由于缺乏对JEPA基础理论的探索,被视为替代方案。

基于以上背景,研究提出一种新的JEPA框架——潜在欧几里得JEPA(Latent-Euclidean Joint Embedding PredictiveArchitecture,LeJEPA),其核心是使嵌入空间遵循特定的统计分布,从而提升模型的预测性能。

嵌入分布的影响

首先,研究通过最小二乘回归(OLS)分析了嵌入分布对偏差和方差的影响。

结果表明,等向高斯分布能够最小化训练过程中的偏差和方差。

特别地,在总方差相同的情况下,非等向分布会导致更高的偏差和方差,而等向高斯分布则能够有效地保证最小的偏差和方差,从而提高下游任务的稳定性和准确性。

通过在非线性探测和几何直觉方面的实验,研究进一步验证了等向高斯分布的优越性。

实验表明,无论是在回归任务还是分类任务中,等向高斯分布都能保持最小的误差,而非等向分布则表现出较高的方差。

LeJEPA:开创无需启发的自监督学习新纪元 LeJEPA 自监督学习 高斯嵌入 SIGReg 第2张

研究表明,各向同性高斯分布是嵌入空间的最佳分布,它可以在没有任务信息的情况下,保证最小化偏差和方差,从而提高下游任务的表现。

SIGReg:实现高斯分布的正则化

为实现上述分布匹配,研究提出了草图化各向同性高斯正则化(Sketched Isotropic Gaussian Regularization,SIGReg),这是一种可处理、可证明正确的正则化方法。

SIGReg的创新点在于:

  • 将分布匹配问题转化为统计假设检验,通过零假设与目标分布的匹配来实现
  • 提供了一种测试方法,保证在多GPU训练时的高效性,并确保梯度和曲率有界
  • 解决了高维空间中的维度灾难问题。

SIGReg通过单变量方向检验,结合Epps-Pulley测试来判断嵌入分布与目标分布(等向高斯分布)的匹配程度。

它将分布匹配转化为零假设与备择假设的检验,并通过统计量判断是否拒绝零假设,从而确认分布是否匹配。

高维问题的解决

SIGReg还通过两条机制解决了高维空间中的计算挑战:

  • 平滑性:嵌入函数的Sobolev平滑性保证了在仅需O(K)个方向切片的情况下即可有效约束整个空间,进行有效的统计检验。
  • SGD迭代特性:训练过程中方向的重复采样累积效应使得即使方向数量很少(如M=16),也能迅速收敛到各向同性分布,优于固定方向集。

在实现方面,LeJEPA结合了SIGReg和预测损失两部分,通过Epps-Pulley统计量实现分布匹配,并通过小批次训练保证计算效率和稳定性。最终的总损失是SIGReg损失和预测损失的加权和。

  • SIGReg损失:通过Epps-Pulley统计量计算,确保训练过程中梯度有界,并通过积分近似提升计算效率。小批次训练引入的偏差对训练影响较小。
  • 预测损失:与DINO方法相似,通过计算所有视图预测全局视图的差异。
  • LeJEPA总损失:是SIGReg损失和预测损失的加权和,其中一个超参数λ用于平衡这两部分的权重。

实验验证与结果

LeJEPA:开创无需启发的自监督学习新纪元 LeJEPA 自监督学习 高斯嵌入 SIGReg 第3张

...(以下省略了部分实验验证内容)...