当前位置:首页 > 科技资讯 > 正文

AI审稿风暴席卷ICLR 2026:超两成评审完全由大模型生成

学术界再度上演了一幕荒诞场景。

一项最新公布的分析揭示,在顶级人工智能会议ICLR 2026中,超过五分之一的审稿意见由大模型一键生成。

卡内基梅隆大学教授Graham Neubig借助Pangram Labs的AI文本检测工具EditLens,对ICLR公开的75800条评审意见逐一核查,发现:21%被判定为“完全由AI生成”,35%受到AI不同程度修改,仅43%被视为纯人类撰写。

AI审稿风暴席卷ICLR 2026:超两成评审完全由大模型生成 AI审稿  ICLR 2026 学术诚信 文本检测 第1张

这些“AI全包”的评审不仅篇幅更长,评分也更高:

EditLens统计显示,完全AI生成的评审平均得分4.43分,而完全人类撰写的为4.13分;

AI评审平均长度接近3700字符,远超人类评审。

许多作者此次可能面对了一位“格外健谈且打分慷慨”的机器人审稿人。

被AI“占领”的

是谁家的主场?

ICLR(国际学习表征大会)是机器学习领域三大顶会之一,与NeurIPS、ICML并称“AI三巨头”。

本届ICLR 2026将于明年4月在巴西里约热内卢举行,投稿量近两万篇,创历史新高。

在“论文洪水”冲击下,审稿人压力剧增,许多人自嘲如同“批改高考作文”。

让AI辅助审稿,早就是公开的秘密。

不同之处在于,这次用数据将秘密曝光于众。

EditLens本身是一篇ICLR 2026投稿论文,作者提出了一种能识别“人写+AI润色”“纯AI写作”等细粒度混合文本的检测模型,并宣称区分人类与AI文本的准确率极高。

AI审稿风暴席卷ICLR 2026:超两成评审完全由大模型生成 AI审稿  ICLR 2026 学术诚信 文本检测 第2张

https://arxiv.org/pdf/2510.03154

Pangram Labs公司对外宣传,其模型在多种场景下“假阳性率极低”,已被期刊和高校用于筛查AI写作。

于是,一家“AI检测器”公司用自家模型扫描全球重要AI会议的审稿意见,得出结论:AI已大举攻入人类学术评审的核心地带。

讽刺的是

ICLR刚刚立下“史上最严AI新规”

更戏剧性的是,此次“AI审稿占比21%”的爆料,恰逢ICLR颁布史上最严LLM规定之后。

今年8月,ICLR 2026组委会在官方博客发布《大型语言模型使用政策》,规定两条铁律:无论是否使用大模型,都必须明确披露;无论使用何种工具,责任均由人承担。

AI审稿风暴席卷ICLR 2026:超两成评审完全由大模型生成 AI审稿  ICLR 2026 学术诚信 文本检测 第3张

若发现作者在论文写作或研究中大量使用LLM却未披露,可直接desk reject(拒稿不再审);

审稿人若用AI写评审却不承认,同样可能连自己的论文被拒。

一边是官方高调强调“用AI必须坦白,从严问责”;

另一边,第三方工具在公开页面上给出冷冰冰统计:“Fully AI-generated:15899(21%)”。

这种强烈反差,令人怀疑:在政策高压下,仍有许多审稿人默默将评审任务交给大模型。

ICLR在舆情爆发后,仅作出简短回应:

AI审稿风暴席卷ICLR 2026:超两成评审完全由大模型生成 AI审稿  ICLR 2026 学术诚信 文本检测 第4张

作者炸锅

低分、怪评,与“精神病”评论

本届ICLR评审已让许多投稿者心态崩溃。腾讯新闻对ICLR 2026出分的长文梳理显示:投稿量猛增至1.9万多篇,平均得分却从去年5.12降至4.20,甚至出现作者首次在顶会上获“0分”的极端情况。

更令人瞠目的是,有评审意见使用“精神病”等攻击性词汇,引发公愤,最终原始评论被删,审稿人公开道歉,但坚持“对论文问题的判断无误”。

AI审稿风暴席卷ICLR 2026:超两成评审完全由大模型生成 AI审稿  ICLR 2026 学术诚信 文本检测 第5张

还有审稿人抱怨,所审论文像AI拼凑,“新术语未定义,引用混乱,实验粗糙”,需数小时才能理解,结果作者一句撤稿便转投他会。

在此报道中,DeepMind研究员Neel Nanda被引用的一句话格外刺耳:同行评审更像一台“随机数生成器”——同一篇论文,换组审稿人,一半概率被拒。

如今将这句话与“21%审稿由AI生成”结合,难免深思:

如果评审本就随机,再加上大量看似严谨实为模板的AI长评,这台“随机数机”会否更难以预测?

其他顶会在干什么?

ICLR并非首家也非最后一家受AI冲击审稿系统的学术机构,仅因自身是AI顶会而显得“魔幻”。

在计算机视觉顶会CVPR 2025,审稿指南明确规定:大模型在任何阶段不得用于撰写评审或元评审,属零容忍政策;

AI审稿风暴席卷ICLR 2026:超两成评审完全由大模型生成 AI审稿  ICLR 2026 学术诚信 文本检测 第6张

不负责任的审稿意见,如仅一两句话、明显由大模型生成或与论文无关,可能被标记为“高度不负责任”,严重时会导致审稿人自己的投稿被拒。

NeurIPS 2025的态度则更“谨慎开放”:允许在写论文时使用LLM,但要求对方法性使用作出说明,并设专门页面解释合规使用AI,强调不得将模型生成的引用不加核查地塞入文中。

AI审稿风暴席卷ICLR 2026:超两成评审完全由大模型生成 AI审稿  ICLR 2026 学术诚信 文本检测 第7张

在更广泛的学术出版界,AI审稿已引发连锁反应。

《自然》报道,美国癌症研究协会(AACR)在期刊评审中引入Pangram检测工具后,明令禁止下,疑似AI撰写的评审比例立即减半,但论文正文未声明使用AI的比例仍不低。

禁令确实让人收敛,但AI早已融入科研流程,很难完全“驱逐出境”。

有趣的是,ICLR自身也在尝试更“温和”的AI用法。

2025年,组委会与OpenReview合作,在ICLR 2025审稿中试验“评审反馈智能体”:AI不直接写评审,而是给审稿人提修改建议,如让模糊批评更具体、指出误解、提醒删不专业措辞。

实验显示,26.6%的审稿人根据AI建议修改评审,平均多写80字,人类评估者在89%对比中更偏好修改版,但论文最终录用率未明显提升。

这一实验让许多人看到:AI未必只能当“影子审稿人”,也可做“评审教练”。

当审稿人和作者都在怀疑对方

“这是人类啊?”

从作者视角看,现今顶会像一场双向“狼人杀”:

作者怀疑收到的是AI写的评审,审稿人怀疑看到的是AI生成的论文;

会议组委会则一边用检测模型排查,一边讨论如何合法、安全地用同类模型减负。

与此同时,研究者们更系统地观察AI评审的行为差异。

最新的Gen-Review数据集模拟了2018–2025年ICLR所有投稿的“AI版本评审”,发现大模型打分存在偏向,且不总遵守审稿指引,评分与最终录用结果相关性有限。

这场围绕ICLR 2026的风波,实则是一块放大镜。

它将原本散落各处的趋势集中显影,AI正悄悄改写科学评审的分工,而人类社会尚未想清希望它扮演什么角色。

或许,真正危机在于,我们是否还愿为每条评审、每篇论文投入那不可替代的人类注意力。

当越来越多评审由模型写给模型,人类科学家必须回答:在这场看似自动化的评判游戏里,我们究竟是裁判,还是被算法顺手带偏的旁观者。

参考资料:

https://iclr.pangram.com/submissions