当前位置：首页 > 科技资讯 > 正文

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力

主机测评网
科技资讯
2026-02-10
808

真正的学术火花常在社交媒体平台迸发。近日，谢赛宁透露其团队新成果iREPA实际上源自四个多月前与网友的一次线上交锋。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第1张

这场短暂的网络辩论虽以谢赛宁被说服收场，但三个月后竟迎来意外进展——多个团队协作，沿此思路完成了一篇完整论文，核心框架仅需3行代码实现。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第2张

论文致谢部分还特别鸣谢了当初参与讨论的网友。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第3张

一篇推特推文引发的学术论文

事件起源于八月，一位网友提出观点：

不应过度追求ImageNet-1K分类分数！自监督学习（SSL）模型应针对稠密任务（如REPA、VLM等）专项训练，因为这些任务更依赖patch tokens中的空间与局部信息，而非[CLS]token所代表的全局分类能力。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第4张

（注：稠密任务指需对图像中每个像素或区域进行预测的计算机视觉任务，要求精确的空间与局部细节，而非仅全局分类标签）

对此，谢赛宁最初反驳：

使用patch token不意味着专注稠密任务。VLM和REPA的性能与IN1K得分高度相关，与patch级别关联较弱。这非[CLS]token问题，而是高层语义与低层像素相似性之间的差异。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第5张

网友随即举例，如SigLIPv2和PE-core在REPA任务上优于DINOv2。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第6张

另一网友加入讨论：

这问题合理。为直接对比，若无DINOv3早期检查点，或可用REPA比较PEspatial和PEcore。其中，PEspatial可理解为将PEcore的Gram-anchor对齐到更早网络层，并结合SAM2.1。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第7张

谢赛宁回应：

很好！感谢指引。我喜欢此方案。否则干扰因素过多。两个检查点已备（G/14，448分辨率），希望很快获得结果。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第8张

三个多月后，谢赛宁承认先前判断有误，且新论文带来更深洞见。

他还贴心提示网友查看致谢部分。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第9张

被致谢网友表示惊喜：

也感谢你的持续关注！被致谢令我荣幸。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第10张

谢赛宁称此讨论为一次小实验——探索新的“线上茶水间效应”是否可行。

他享受这种过程：先有分歧争论，再通过实验投入，将直觉转化为可验证科学结论。

这种开放、即时、可纠错的学术交流，无疑值得推广。

接下来，让我们深入阅读由此诞生的最新论文。

空间结构主导目标表征生成性能

论文探讨核心基础问题：使用预训练视觉编码器表征指导生成模型时，究竟是哪部分决定生成质量？

是全局语义信息（ImageNet-1K分类准确率）还是空间结构（即补丁tokens间的成对余弦相似度）？

结论鲜明：更好的全局语义不等同于更好生成，空间结构（非全局语义）才是表征生成性能的核心驱动力。

传统观念（含谢赛宁曾持观点）认为更强全局语义性能带来更佳生成效果，但研究显示更大的视觉编码器反而可能导致生成性能下降。

线性检测准确率仅约20%的视觉编码器，可超越准确率>80%的编码器。

且若试图通过CLS token向patch token注入更多全局语义，生成性能会被削弱。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第11张

研究同时发现生成效果更优的表征通常具备更强空间结构（可通过空间自相似性指标衡量）：

即图像中某部分token如何关注其他区域token。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第12张

研究方法上，通过大规模定量相关性分析细化验证：覆盖27种不同视觉编码器（含DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP等）及3种模型规模（B、L、XL）。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第13张

进一步评测中，空间信息重要性凸显：即便如SIFT、HOG等经典空间特征，也能带来与PE-G等现代大规模视觉编码器相当、具竞争力的提升。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第14张

得出测试结论后，论文基于现有表征对齐（REPA）框架分析改进，提出iREPA。

投影层改进：将REPA中标准MLP投影层替换为简单卷积层。

空间规范化：为外部表征引入空间规范化层。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第15张

这些简易修改（如在DeCo框架下实现）旨在保留强化空间结构信息，相比原始REPA方法显著提升性能。

值得一提的是iREPA仅需3行代码即可集成到任何表示对齐方法中，并在各种训练方案（如REPA、REPA-E、Meanflow及近期JiT）中实现持续更快收敛。

推特辩论孕育学术突破：iREPA框架揭示空间结构在视觉生成中的核心驱动力 iREPA 空间结构视觉编码器生成模型第16张

参考链接

[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736

性价比服务器性价比vps 免费vps

本文由主机测评网于2026-02-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260224293.html

上一篇

本地深度学习环境部署全攻略（Windows10/11与Linux系统详细教程）

下一篇

FlutterSDK安装与配置全攻略：从零开始搭建跨平台开发环境（Windows/macOS/Linux指南）