真正的学术火花常在社交媒体平台迸发。近日,谢赛宁透露其团队新成果iREPA实际上源自四个多月前与网友的一次线上交锋。
这场短暂的网络辩论虽以谢赛宁被说服收场,但三个月后竟迎来意外进展——多个团队协作,沿此思路完成了一篇完整论文,核心框架仅需3行代码实现。
论文致谢部分还特别鸣谢了当初参与讨论的网友。
事件起源于八月,一位网友提出观点:
不应过度追求ImageNet-1K分类分数!自监督学习(SSL)模型应针对稠密任务(如REPA、VLM等)专项训练,因为这些任务更依赖patch tokens中的空间与局部信息,而非[CLS]token所代表的全局分类能力。
(注:稠密任务指需对图像中每个像素或区域进行预测的计算机视觉任务,要求精确的空间与局部细节,而非仅全局分类标签)
对此,谢赛宁最初反驳:
使用patch token不意味着专注稠密任务。VLM和REPA的性能与IN1K得分高度相关,与patch级别关联较弱。这非[CLS]token问题,而是高层语义与低层像素相似性之间的差异。
网友随即举例,如SigLIPv2和PE-core在REPA任务上优于DINOv2。
另一网友加入讨论:
这问题合理。为直接对比,若无DINOv3早期检查点,或可用REPA比较PEspatial和PEcore。其中,PEspatial可理解为将PEcore的Gram-anchor对齐到更早网络层,并结合SAM2.1。
谢赛宁回应:
很好!感谢指引。我喜欢此方案。否则干扰因素过多。两个检查点已备(G/14,448分辨率),希望很快获得结果。
三个多月后,谢赛宁承认先前判断有误,且新论文带来更深洞见。
他还贴心提示网友查看致谢部分。
被致谢网友表示惊喜:
也感谢你的持续关注!被致谢令我荣幸。
谢赛宁称此讨论为一次小实验——探索新的“线上茶水间效应”是否可行。
他享受这种过程:先有分歧争论,再通过实验投入,将直觉转化为可验证科学结论。
这种开放、即时、可纠错的学术交流,无疑值得推广。
接下来,让我们深入阅读由此诞生的最新论文。
论文探讨核心基础问题:使用预训练视觉编码器表征指导生成模型时,究竟是哪部分决定生成质量?
是全局语义信息(ImageNet-1K分类准确率)还是空间结构(即补丁tokens间的成对余弦相似度)?
结论鲜明:更好的全局语义不等同于更好生成,空间结构(非全局语义)才是表征生成性能的核心驱动力。
传统观念(含谢赛宁曾持观点)认为更强全局语义性能带来更佳生成效果,但研究显示更大的视觉编码器反而可能导致生成性能下降。
线性检测准确率仅约20%的视觉编码器,可超越准确率>80%的编码器。
且若试图通过CLS token向patch token注入更多全局语义,生成性能会被削弱。
研究同时发现生成效果更优的表征通常具备更强空间结构(可通过空间自相似性指标衡量):
即图像中某部分token如何关注其他区域token。
研究方法上,通过大规模定量相关性分析细化验证:覆盖27种不同视觉编码器(含DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP等)及3种模型规模(B、L、XL)。
进一步评测中,空间信息重要性凸显:即便如SIFT、HOG等经典空间特征,也能带来与PE-G等现代大规模视觉编码器相当、具竞争力的提升。
得出测试结论后,论文基于现有表征对齐(REPA)框架分析改进,提出iREPA。
投影层改进: 将REPA中标准MLP投影层替换为简单卷积层。
空间规范化: 为外部表征引入空间规范化层。
这些简易修改(如在DeCo框架下实现)旨在保留强化空间结构信息,相比原始REPA方法显著提升性能。
值得一提的是iREPA仅需3行代码即可集成到任何表示对齐方法中,并在各种训练方案(如REPA、REPA-E、Meanflow及近期JiT)中实现持续更快收敛。
参考链接
[1]https://x.com/YouJiacheng/status/1957073253769380258
[2]https://arxiv.org/abs/2512.10794
[3]https://x.com/sainingxie/status/2000709656491286870
[4]https://x.com/1jaskiratsingh/status/2000701128431034736
本文由主机测评网于2026-02-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224293.html