当前位置:首页 > 科技资讯 > 正文

AI大模型论文陷荒谬错误,研究员愤怒揭露

近期,AI大模型公司阶跃星辰的研究员Lei Yang经历了一场令人震惊的学术风波——他被苹果在arXiv上发表的论文狠狠坑了一把。

面对反馈的问题,对方只是简单回应了两句就关闭了issue。无奈之下,Lei Yang只能留下公开评论,这才促使对方撤稿并下架了代码。

AI大模型论文陷荒谬错误,研究员愤怒揭露 AI大模型 论文错误 荒谬事件 研究员揭露 第1张

故事起始于本月初,Lei Yang被同事推荐了一篇苹果在arXiv上发表的论文。该论文正投往ICLR 2026,其中提出的benchmark与Lei Yang的研究工作高度契合。他欣喜若狂,立刻暂停手头工作,开始适配这个benchmark。

然而,这个声称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码bug和高达约30%的GT(Ground Truth)错误率。

AI大模型论文陷荒谬错误,研究员愤怒揭露 AI大模型 论文错误 荒谬事件 研究员揭露 第2张

Lei Yang在适配过程中发现,尽管熬了一个周末的通宵完成适配,模型跑出的结果却极其糟糕,远低于预期。他开始做各种检查和尝试,最终发现了官方代码的bug。修复后,模型的性能反而更低了。

震惊之余,Lei Yang决定一条一条地分析错题。他抽查了前20道阶跃模型答错的题,发现其中有6道题明确属于GT错误。他初步估算,GT错误率可能高达30%。

AI大模型论文陷荒谬错误,研究员愤怒揭露 AI大模型 论文错误 荒谬事件 研究员揭露 第3张

愤怒之下,Lei Yang在GitHub上向作者反馈错误,并撰写了一份详尽的Public Comment。然而,ICLR review公布后,他惊讶地发现该论文的5条reviews居然没有任何一个审稿人发现GT质量问题。

最后,在公开评论发表的第二天,论文作者就宣布撤稿,并删除了GitHub上的repo。

AI大模型论文陷荒谬错误,研究员愤怒揭露 AI大模型 论文错误 荒谬事件 研究员揭露 第4张

原论文作者公开回应

这两天Lei Yang在多个平台分享自己的惨痛经历,希望通过这一遭遇警醒更多研究者。今天上午,论文作者现身回应了。

他首先声明自己这边已经和Lei Yang详细交流,也感谢和尊重推动学术社区进展的每个人。

AI大模型论文陷荒谬错误,研究员愤怒揭露 AI大模型 论文错误 荒谬事件 研究员揭露 第5张

论文作者承认了对数据质量的审核不周。虽然当初对injected error(人为注入错误)的样本做了人工检查,但没有认真审核更关键的部分。他解释称项目中的example inference代码是一个dummy示例,不是正式的演示代码。

最后他对自己当时直接关闭了issue感到非常抱歉,并表示会认真总结这次的经验教训,再接再厉。