当前位置:首页 > 科技资讯 > 正文

推特辩论催生学术新发现:空间结构驱动生成性能

谈及真正的学术探讨,怎能不提及推特这一平台?

近日,谢赛宁透露其团队的新作iREPA的灵感竟源自4个多月前的一场与网友的辩论。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第1张

这场线上辩论虽以谢赛宁被网友说服告终,但3个多月后,竟有了意想不到的后续——

多个团队合作,沿此思路撰写了一篇完整的论文,其核心框架精简至仅3行代码。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第2张

致谢部分还感谢了当时参与讨论的网友。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第3张

一场推特引发的学术论文

事情是这样的。

一位网友在8月份提出:

别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应专为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖的是patch tokens中的空间和局部信息,而非[CLS]token所代表的全局分类性能。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第4张

对于网友的观点,谢赛宁表示:

不,使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,与patch级别的对应关系则较弱。这不是[CLS]token的问题,而是高层语义与低层像素相似性之间的区别。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第5张

网友随后举出SigLIPv2和PE-core优于DINOv2 for REPA的例子。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第6张

同时,另一位网友加入讨论:

这是个合理的问题。为做直接对比,在没有DINOv3早期checkpoint的情况下,或许可用REPA比较PEspatial和PEcore。其中,PEspatial可理解为:将PEcore的Gram-anchor对齐到更早的网络层,并结合SAM2.1。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第7张

对此,谢赛宁表示:

非常好!感谢你的指路。我很喜欢这个方案。否则干扰因素会太多。两个checkpoint都已有(G/14,448分辨率),希望我们很快就能拿到一些结果。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第8张

3个多月后,谢赛宁表示先前的判断需重新审视,而此次论文带来了更深的理解。

他还建议网友阅读致谢部分。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第9张

对于自己在致谢中被提及,一位参与讨论的网友表示很有趣:

也谢谢你一路跟进!被致谢提及我也很惊讶。

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第10张

谢赛宁还表示,此次讨论本身就是一次实验——他想验证一种新的“线上茶水间效应”是否真的可能发生。

他享受这种状态:先有分歧、争论,再通过实验和投入,将直觉转化为可验证的科学结论。

不得不说,这种开放、即时、可纠错的学术讨论确实值得推广。

接下来,让我们一同了解由此催生的最新论文。

空间结构:生成性能的关键驱动力

承接上述讨论,这篇最新论文探讨了核心基础问题:

在使用预训练视觉编码器表征指导生成模型时,究竟是哪一部分表征决定生成质量?是全局语义信息(ImageNet-1K上的分类准确率)还是其空间结构(即补丁tokens之间的成对余弦相似度)?

论文的结论是:更好的全局语义信息并不等同于更好的生成,空间结构(而非全局语义)才是表征生成性能的驱动力。

传统观念(包括谢赛宁本人)认为具有更强全局语义性能的表征会带来更好的生成效果,但研究表明更大的视觉编码器反而可能带来较差的生成性能

推特辩论催生学术新发现:空间结构驱动生成性能 推特 学术论文 空间结构 生成性能 第11张