近期,ICLR 2026会议审稿意见中被发现存在大量由人工智能生成的内容,这一现象在学术社区内引发了广泛讨论与争议。该会议预计于2026年4月23日至27日在巴西里约热内卢召开。
随着会议首轮评审分数的公布,一家名为潘格拉姆实验室(Pangram Labs)的第三方机构对ICLR 2026的审稿意见进行了系统性数据分析,结果揭示了审稿过程中AI工具被广泛使用的现状。
该机构对总计75,800篇论文的审稿意见进行统计后发现,高达21%的评审意见被判定为完全由AI生成,此外有4%属于重度AI编辑、9%为中度AI编辑、22%为轻度AI编辑,而完全由人类审稿人独立撰写的意见仅占43%。
图源:X@ Graham Neubig
分析还指出了一些显著趋势,包括由AI生成的审稿意见通常篇幅更长,并且倾向于给出更高的评分。
此项统计分析由专注于检测AI生成文本的科技公司潘格拉姆实验室(Pangram Labs)完成。该公司对ICLR 2026的投稿作者及审稿人使用人工智能的情况进行了深入细致的评估。
图源:X@ Pangram Labs 首席执行官 Max Spero
为处理每篇论文,Pangram Labs下载了PDF文件,并利用Mistral-OCR技术解析文本内容,以去除预印本中的行号,获得可用于分析的洁净文本。他们运用了内置滑动窗口算法的生产模型来估测AI使用的程度。
虽然许多文档检测到的AI使用程度在0%到10%之间,但这部分主要源于论文中包含作为研究案例的大语言模型输出示例,而非在论文主体写作中使用了AI。因此,这类情况均被归类为「完全由人类撰写」。
投稿论文的 AI 使用程度以及平均得分划分。
对于投稿论文,分析结果显示有39%的稿件以某种形式使用了AI作为写作辅助工具。一个有趣的发现是,论文中AI使用的程度与相对较低的评审得分呈现出相关性。其中,被标记为「90–100%」AI内容生成的199篇投稿,其平均得分仅为2.9分。
针对审稿意见,由于评审文本通常较短,无法依赖滑动窗口算法来区分「AI辅助」与「AI生成」。因此,Pangram Labs采用了EditLens——一个旨在量化文本中AI辅助程度的全新模型进行分析。
审稿意见中 AI 使用程度的预测、评分以及置信度。
分析结果表明,21%的审稿意见被EditLens标记为完全由AI生成。此外,完全由AI生成的评审意见平均得分高出0.3分,其文本长度也比完全由人类撰写的评审意见增加了26%。
完全由 AI 生成的审稿意见示例如下:
关于AI评审的「置信度」问题,Pangram Labs发现:完全由AI生成的评审比人类或AI辅助撰写的评审更倾向于给出置信度为3的评价。不过,这一差异幅度较小,因此需要审慎解读。
此外,为验证所用模型的准确性(假阳性率),Pangram Labs使用ICLR 2022的审稿意见运行了EditLens模型。结果显示:轻度AI编辑的假阳性率为千分之一,中度AI编辑的假阳性率为五千分之一,重度AI编辑的假阳性率为万分之一,而完全由AI生成的判定未出现任何假阳性案例。
相关讨论区有审稿人分享亲身经历,表示自己评审的一篇论文在收到另外两个低分评审后被退回,而这两个评审恰好被标记为完全由AI生成。
今日上午,ICLR 2026会议组织方发布官方声明,称「我们已经注意到低质量的评审以及由大语言模型生成的评审,目前正在讨论应采取的适当措施。现阶段,收到质量极差或由LLM生成评审意见的作者,应将其标注并反馈给所在领域的主席(AC)。我们感谢社区在报告这些问题上所付出的努力!」
针对使用AI的审稿人,社区中有建议提出处理方案:移除低质量评审,并自动将这些不良审稿人标记为「未履行评审职责」,随后自动拒绝他们提交的论文。
对此事件关注的读者,尤其是向本届ICLR投稿的作者,可以参考Pangram Labs的统计分析结果,查验自己论文收到的审稿意见中AI使用的情况。
统计链接:https://iclr.pangram.com/submissions
本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120248.html