近期,AI大模型公司阶跃星辰的研究员Lei Yang经历了一场令人震惊的学术风波——他被苹果在arXiv上发表的论文狠狠坑了一把。
面对反馈的问题,对方只是简单回应了两句就关闭了issue。无奈之下,Lei Yang只能留下公开评论,这才促使对方撤稿并下架了代码。
故事起始于本月初,Lei Yang被同事推荐了一篇苹果在arXiv上发表的论文。该论文正投往ICLR 2026,其中提出的benchmark与Lei Yang的研究工作高度契合。他欣喜若狂,立刻暂停手头工作,开始适配这个benchmark。
然而,这个声称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码bug和高达约30%的GT(Ground Truth)错误率。
Lei Yang在适配过程中发现,尽管熬了一个周末的通宵完成适配,模型跑出的结果却极其糟糕,远低于预期。他开始做各种检查和尝试,最终发现了官方代码的bug。修复后,模型的性能反而更低了。
震惊之余,Lei Yang决定一条一条地分析错题。他抽查了前20道阶跃模型答错的题,发现其中有6道题明确属于GT错误。他初步估算,GT错误率可能高达30%。
愤怒之下,Lei Yang在GitHub上向作者反馈错误,并撰写了一份详尽的Public Comment。然而,ICLR review公布后,他惊讶地发现该论文的5条reviews居然没有任何一个审稿人发现GT质量问题。
最后,在公开评论发表的第二天,论文作者就宣布撤稿,并删除了GitHub上的repo。
这两天Lei Yang在多个平台分享自己的惨痛经历,希望通过这一遭遇警醒更多研究者。今天上午,论文作者现身回应了。
他首先声明自己这边已经和Lei Yang详细交流,也感谢和尊重推动学术社区进展的每个人。
论文作者承认了对数据质量的审核不周。虽然当初对injected error(人为注入错误)的样本做了人工检查,但没有认真审核更关键的部分。他解释称项目中的example inference代码是一个dummy示例,不是正式的演示代码。
最后他对自己当时直接关闭了issue感到非常抱歉,并表示会认真总结这次的经验教训,再接再厉。
本文由主机测评网于2026-05-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545293.html