当前位置:首页 > 科技资讯 > 正文

AI界掀起“假开源”风暴,研究员揭露真相

在科技界,较真精神从未缺席。

当2026的钟声已经敲响,仍有一位科研人员决心挺身而出,对抗行业内的不正之风。

这场斗争的焦点是什么?

正是AI学术界饱受争议的假开源现象。

论文发表时宣称开源,附上GitHub链接,但后续却音信全无。

一位匿名AI研究者,利用NeurIPS 2024这一顶级会议作为试金石,对收录的论文进行了一番严格的检验。结果发现,众多标榜开源的项目,实际上并未兑现承诺。

数据令人震惊——

AI界掀起“假开源”风暴,研究员揭露真相 AI假开源 科研诚信 NeurIPS 代码仓库 第1张

从NeurIPS 2024的4035篇论文中,仅有2404篇真正实现了开源;

除了未提供链接的1533篇外,还有98篇论文声称开源并给出链接,但代码仓库却空空如也或仍处于建设中。

诚然,可能存在误判,毕竟这项工作是AI完成的。

然而,这项“研究”既对事也对人,数据翔实,证据确凿,甚至点名道姓地指出了相关机构……

真是令人瞠目结舌。

较真的AI研究者

据说这一切的源头,是这位研究者满怀学习热情地点开开源链接,却遭遇了一个又一个404和“Code coming soon”,最终愤怒不已。

在又一次被空仓库“戏耍”后,他决定不再沉默。

他深入剖析了NeurIPS 2024——这个已经落幕一年多的顶级AI会议,发现那些仍未填补的“坑”,所谓的“Coming Soon”大概率已成“Coming Never”。

AI界掀起“假开源”风暴,研究员揭露真相 AI假开源 科研诚信 NeurIPS 代码仓库 第2张

仅用一夜时间,他就用AI系统完成了代码仓库的爬取工作。

他强调,在Agentic AI兴起的时代,核查学术诚信的成本将逐渐趋近于零,谁脚踏实地,谁投机取巧,在大数据下无所遁形

该AI系统融合了OpenReview/GitHub API及PDF解析技术,直接从论文PDF中提取地址并验证链接的有效性。

当然,他也承认了系统的局限性——基于自动化爬取与启发式逻辑,可能存在误判(假阳性/假阴性)。统计结果仅供参考,请自行核验。

检索结果显示了各机构(横轴)的论文录用数量、真实开源数量、未标明链接文章数及最惊人的假开源数。

AI界掀起“假开源”风暴,研究员揭露真相 AI假开源 科研诚信 NeurIPS 代码仓库 第3张

此外,他还列出了98份明确承诺开源但仅有空仓库的假开源名单,彻底暴露了学术界的“鸽王”们。

AI界掀起“假开源”风暴,研究员揭露真相 AI假开源 科研诚信 NeurIPS 代码仓库 第4张

读罢此文,只觉震惊、无奈……

会议结束已逾一年,这些“Coming Soon”为何成了“Coming Never”?

假开源背后的原因

根本原因在于审稿机制。

自2021年起,NeurIPS等顶级会议强制要求填写可复现性检查表(Reproducibility Checklist);

到了2024年,要求更加严格,不仅内容更细致,还需明确无法开源的理由。这些都会直接影响论文的审稿评分。

在这种机制下,“愿意开源”几乎成了录用的隐形加分项,“Code coming soon”也开始泛滥。

尽管顶会要求提交Checklist,但并不强制验证可复现性,因此存在一定的模糊空间。

AI界掀起“假开源”风暴,研究员揭露真相 AI假开源 科研诚信 NeurIPS 代码仓库 第5张

然而,现实情况可能更为复杂。

有些工业界论文的代码需经过漫长的合规审批流程,团队索性先放个占位符;

还有些项目复现门槛极高,训练成本高昂且需内部数据,基本无人能够复现;

再加上人生变故(如课题组转向、专利卡壳等),许多本应发布的代码最终也未能面世……

其实,这种行为并非个例。Stability AI研究总监Tanishq Mathew Abraham就曾公开批评过这种现象。

AI界掀起“假开源”风暴,研究员揭露真相 AI假开源 科研诚信 NeurIPS 代码仓库 第6张

“没时间”绝非违背承诺的借口。若无力开源,便不应画饼。

“菜不是原罪;但贪欲若超出能力范围,牺牲学术道德换取虚名时,这便是罪。”

“我并非针对任何人,只是想提醒业界。”

One More Thing

“若无力兑现承诺,便不应轻率画饼。”这位匿名研究者留言道。

“这不是针对谁。只是想提醒业界。”

“让科研诚信成为‘Fork’和‘Star’最多的东西。”