当前位置:首页 > 科技资讯 > 正文

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量

近期,ICLR 2026会议审稿意见中被发现存在大量由人工智能生成的内容,这一现象在学术社区内引发了广泛讨论与争议。该会议预计于2026年4月23日至27日在巴西里约热内卢召开。

随着会议首轮评审分数的公布,一家名为潘格拉姆实验室(Pangram Labs)的第三方机构对ICLR 2026的审稿意见进行了系统性数据分析,结果揭示了审稿过程中AI工具被广泛使用的现状。

该机构对总计75,800篇论文的审稿意见进行统计后发现,高达21%的评审意见被判定为完全由AI生成,此外有4%属于重度AI编辑、9%为中度AI编辑、22%为轻度AI编辑,而完全由人类审稿人独立撰写的意见仅占43%

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第1张

图源:X@ Graham Neubig

分析还指出了一些显著趋势,包括由AI生成的审稿意见通常篇幅更长,并且倾向于给出更高的评分

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第2张

此项统计分析由专注于检测AI生成文本的科技公司潘格拉姆实验室(Pangram Labs)完成。该公司对ICLR 2026的投稿作者及审稿人使用人工智能的情况进行了深入细致的评估。

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第3张

图源:X@ Pangram Labs 首席执行官 Max Spero

为处理每篇论文,Pangram Labs下载了PDF文件,并利用Mistral-OCR技术解析文本内容,以去除预印本中的行号,获得可用于分析的洁净文本。他们运用了内置滑动窗口算法的生产模型来估测AI使用的程度。

虽然许多文档检测到的AI使用程度在0%到10%之间,但这部分主要源于论文中包含作为研究案例的大语言模型输出示例,而非在论文主体写作中使用了AI。因此,这类情况均被归类为「完全由人类撰写」。

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第4张

投稿论文的 AI 使用程度以及平均得分划分。

对于投稿论文,分析结果显示有39%的稿件以某种形式使用了AI作为写作辅助工具。一个有趣的发现是,论文中AI使用的程度与相对较低的评审得分呈现出相关性。其中,被标记为「90–100%」AI内容生成的199篇投稿,其平均得分仅为2.9分。

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第5张

针对审稿意见,由于评审文本通常较短,无法依赖滑动窗口算法来区分「AI辅助」与「AI生成」。因此,Pangram Labs采用了EditLens——一个旨在量化文本中AI辅助程度的全新模型进行分析。

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第6张

审稿意见中 AI 使用程度的预测、评分以及置信度。

分析结果表明,21%的审稿意见被EditLens标记为完全由AI生成。此外,完全由AI生成的评审意见平均得分高出0.3分,其文本长度也比完全由人类撰写的评审意见增加了26%

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第7张

完全由 AI 生成的审稿意见示例如下:

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第8张

关于AI评审的「置信度」问题,Pangram Labs发现:完全由AI生成的评审比人类或AI辅助撰写的评审更倾向于给出置信度为3的评价。不过,这一差异幅度较小,因此需要审慎解读。

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第9张

此外,为验证所用模型的准确性(假阳性率),Pangram Labs使用ICLR 2022的审稿意见运行了EditLens模型。结果显示:轻度AI编辑的假阳性率为千分之一,中度AI编辑的假阳性率为五千分之一,重度AI编辑的假阳性率为万分之一,而完全由AI生成的判定未出现任何假阳性案例

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第10张

相关讨论区有审稿人分享亲身经历,表示自己评审的一篇论文在收到另外两个低分评审后被退回,而这两个评审恰好被标记为完全由AI生成。

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第11张

官方回应正式发布

今日上午,ICLR 2026会议组织方发布官方声明,称「我们已经注意到低质量的评审以及由大语言模型生成的评审,目前正在讨论应采取的适当措施。现阶段,收到质量极差或由LLM生成评审意见的作者,应将其标注并反馈给所在领域的主席(AC)。我们感谢社区在报告这些问题上所付出的努力!」

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第12张

针对使用AI的审稿人,社区中有建议提出处理方案:移除低质量评审,并自动将这些不良审稿人标记为「未履行评审职责」,随后自动拒绝他们提交的论文。

ICLR 2026审稿意见中AI生成内容占比引争议,官方回应关注评审质量 2026  AI审稿 学术诚信 Pangram Labs 第13张

对此事件关注的读者,尤其是向本届ICLR投稿的作者,可以参考Pangram Labs的统计分析结果,查验自己论文收到的审稿意见中AI使用的情况。

统计链接:https://iclr.pangram.com/submissions