当前位置:首页 > 科技资讯 > 正文

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力

真正的学术火花常在社交媒体平台迸发。近日,谢赛宁透露其团队新成果iREPA实际上源自四个多月前与网友的一次线上交锋。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第1张

这场短暂的网络辩论虽以谢赛宁被说服收场,但三个月后竟迎来意外进展——多个团队协作,沿此思路完成了一篇完整论文,核心框架仅需3行代码实现。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第2张

论文致谢部分还特别鸣谢了当初参与讨论的网友。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第3张

一篇推特推文引发的学术论文

事件起源于八月,一位网友提出观点:

不应过度追求ImageNet-1K分类分数!自监督学习(SSL)模型应针对稠密任务(如REPA、VLM等)专项训练,因为这些任务更依赖patch tokens中的空间与局部信息,而非[CLS]token所代表的全局分类能力。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第4张

(注:稠密任务指需对图像中每个像素或区域进行预测的计算机视觉任务,要求精确的空间与局部细节,而非仅全局分类标签)

对此,谢赛宁最初反驳:

使用patch token不意味着专注稠密任务。VLM和REPA的性能与IN1K得分高度相关,与patch级别关联较弱。这非[CLS]token问题,而是高层语义与低层像素相似性之间的差异。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第5张

网友随即举例,如SigLIPv2和PE-core在REPA任务上优于DINOv2。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第6张

另一网友加入讨论:

这问题合理。为直接对比,若无DINOv3早期检查点,或可用REPA比较PEspatial和PEcore。其中,PEspatial可理解为将PEcore的Gram-anchor对齐到更早网络层,并结合SAM2.1。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第7张

谢赛宁回应:

很好!感谢指引。我喜欢此方案。否则干扰因素过多。两个检查点已备(G/14,448分辨率),希望很快获得结果。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第8张

三个多月后,谢赛宁承认先前判断有误,且新论文带来更深洞见。

他还贴心提示网友查看致谢部分。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第9张

被致谢网友表示惊喜:

也感谢你的持续关注!被致谢令我荣幸。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第10张

谢赛宁称此讨论为一次小实验——探索新的“线上茶水间效应”是否可行。

他享受这种过程:先有分歧争论,再通过实验投入,将直觉转化为可验证科学结论。

这种开放、即时、可纠错的学术交流,无疑值得推广。

接下来,让我们深入阅读由此诞生的最新论文。

空间结构主导目标表征生成性能

论文探讨核心基础问题:使用预训练视觉编码器表征指导生成模型时,究竟是哪部分决定生成质量?

是全局语义信息(ImageNet-1K分类准确率)还是空间结构(即补丁tokens间的成对余弦相似度)?

结论鲜明:更好的全局语义不等同于更好生成,空间结构(非全局语义)才是表征生成性能的核心驱动力。

传统观念(含谢赛宁曾持观点)认为更强全局语义性能带来更佳生成效果,但研究显示更大的视觉编码器反而可能导致生成性能下降

线性检测准确率仅约20%的视觉编码器,可超越准确率>80%的编码器。

且若试图通过CLS token向patch token注入更多全局语义,生成性能会被削弱。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第11张

研究同时发现生成效果更优的表征通常具备更强空间结构(可通过空间自相似性指标衡量)

即图像中某部分token如何关注其他区域token。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第12张

研究方法上,通过大规模定量相关性分析细化验证:覆盖27种不同视觉编码器(含DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP等)及3种模型规模(B、L、XL)。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第13张

进一步评测中,空间信息重要性凸显:即便如SIFT、HOG等经典空间特征,也能带来与PE-G等现代大规模视觉编码器相当、具竞争力的提升。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第14张

得出测试结论后,论文基于现有表征对齐(REPA)框架分析改进,提出iREPA。

投影层改进: 将REPA中标准MLP投影层替换为简单卷积层。

空间规范化: 为外部表征引入空间规范化层。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第15张

这些简易修改(如在DeCo框架下实现)旨在保留强化空间结构信息,相比原始REPA方法显著提升性能。

值得一提的是iREPA仅需3行代码即可集成到任何表示对齐方法中,并在各种训练方案(如REPA、REPA-E、Meanflow及近期JiT)中实现持续更快收敛。

推特辩论孕育学术突破:iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA  空间结构 视觉编码器 生成模型 第16张

参考链接

[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736