当前位置:首页 > 科技资讯 > 正文

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估

尽管面临Meta公司审核规定的诸多挑战,Yann LeCun及其团队依然持续推出前沿学术论文!

此前曾表示可能离职的LeCun,现已携最新研究成果回归,继续与三位FAIR同事紧密合作。

Yann LeCun团队在最新论文中揭示,自监督模型JEPAs(联合嵌入预测架构)具备一项此前未知的隐藏能力——

能够学习数据的‘密度’

这里所说的‘数据密度’,可理解为数据的常见程度:高密度样本代表更典型、更常见的数据,而低密度样本则对应罕见或异常数据。

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第1张

JEPAs此前一直被学界视为仅擅长特征提取的模型,但LeCun团队发现,该模型在训练过程中悄然掌握了感知数据常见程度的能力。

这意味着,只要JEPAs训练成功,无需任何额外操作,即可直接用于判断样本的常见程度

这打破了学术界长期持有的‘JEPAs仅学习特征、与数据密度无关’的固有认知。

核心发现:反坍缩机制实现数据密度精准学习

要理解这一突破性发现,首先需了解JEPAs的基本原理。

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第2张

源自《A Path Towards Autonomous Machine Intelligence》图12

JEPAs作为LeCun团队近年重点推进的自监督学习框架,其核心优势在于无需人工标注,模型便能从海量数据中自主学习特征规律,学成后可轻松适配图像识别、跨模态匹配等下游任务,是AI领域高效学习的典范。

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第3张

此前,学术界普遍认为JEPAs的训练仅有两个核心目标:

  • 一是潜在空间预测。即对原始数据(如图像)进行轻微扰动(如裁剪、调色)后,扰动数据的特征表示(模型内部理解的数据形态)能从原始数据特征中准确预测;
  • 二是反坍缩。防止所有样本的特征趋于一致。

而新发现正是从反坍缩机制中得来。

如果所有数据的特征都相同,模型的学习将失去意义,因此过去反坍缩仅被视为避免特征失效的保护手段,未意识到其更深层作用。

LeCun团队聚焦于反坍缩的隐藏价值,通过变量替换公式高维统计特性推导证明,反坍缩不仅能防止特征坍缩,更能让JEPAs精准学习数据密度

从理论层面看,当JEPAs输出高斯嵌入(高维空间中近似均匀分布于超球面的特征)时,模型必须通过雅可比矩阵(反映模型对样本微小变化的响应程度)感知数据密度,才能满足训练约束条件,这表明学习数据密度并非偶然,而是JEPAs训练过程中的必然结果

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第4张

为使这种隐藏的密度感知能力落地实用,团队还提出了关键工具JEPA-SCORE

这是从JEPAs中提取数据密度的量化指标,核心作用是为样本的常见度评分

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第5张

根据公式,计算逻辑简洁高效:只需获取JEPAs处理目标样本时的雅可比矩阵,计算矩阵特征值后取对数求和,所得结果即为JEPA-SCORE,分数越高表明样本越典型(数据密度高),分数越低则样本越罕见或异常(数据密度低)。

更重要的是,JEPA-SCORE具备极强通用性,既不依赖特定数据集,也不限于特定JEPAs架构

无论是ImageNet、手写数字MNIST,还是未参与预训练的陌生数据(如星云图集),都能精准计算;

不管是I-JEPA、DINOv2(单模态视觉模型),还是MetaCLIP(多模态模型),只要是成功训练的JEPAs家族模型,均可直接使用,且无需额外训练。

为验证这一发现的可靠性,团队进行了多组实验。

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第6张

在ImageNet数据集中,不同JEPAs模型对典型样本(如飞行中的鸟类)和罕见样本(如栖息姿态的鸟类)的JEPA-SCORE判定高度一致,证明这是JEPAs的共性能力,非某个模型的偶然现象;

面对未参与预训练的星系图像数据集,其JEPA-SCORE显著低于ImageNet数据,表明模型能准确识别陌生数据;

在数据筛选和异常检测的实用测试中,JEPA-SCORE的效果也优于传统方法。

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第7张

数据筛选场景

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第8张

异常检测场景

研究团队

此项研究并非LeCun一人之功,另外三位核心研究者均来自Meta FAIR。

Randall Balestriero是布朗大学计算机科学助理教授,长期深耕人工智能与深度学习领域。

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第9张

自2013年起研究可学习信号处理,其参与的技术曾用于NASA火星车的火星地震探测。

2021年获莱斯大学博士学位后,他进入Meta AI从事博士后研究,师从Yann LeCun。

Nicolas Ballas拥有法国格勒诺布尔大学博士学位。

2010年4月至9月,他在LTU Technologies担任研发实习生,从事应用于图像检索的大规模聚类工作。

自2017年起,他在FAIR担任研究科学家,已任职超过8年。

Michael Rabbat是FAIR的创始成员,拥有伊利诺伊大学厄巴纳-香槟分校的工程学士学位、莱斯大学的工程硕士学位,以及威斯康星大学麦迪逊分校的电气工程博士学位。

LeCun团队突破性发现:JEPAs自监督模型隐密掌握数据密度评估 JEPAs  自监督学习 数据密度 异常检测 第10张

他的研究方向聚焦于优化算法、分布式算法及信号处理三大领域。

加入Meta之前,Mike曾担任麦吉尔大学电气与计算机工程系教授。

论文地址:

https://arxiv.org/abs/2510.05949