最近,围绕国际机器学习大会(ICLR 2026)审稿意见中大量由AI生成的内容,学术界展开了热烈讨论。本届会议将于2026年4月23日至27日在巴西里约热内卢举行。
随着首轮分数的公布,第三方机构对ICLR 2026的审稿意见进行了系统性统计,揭示出AI审稿的普遍存在。
在统计的75800篇论文中,令人惊讶的是,有21%的审稿意见完全由AI生成、4%重度由AI编辑、9%中度由AI编辑、22%轻度由AI编辑,而完全由人类(审稿人)撰写的仅占43%。
图源:X@ Graham Neubig
这些统计还揭示了几个趋势,包括AI审稿意见篇幅更长、AI审稿更可能给出高分。
这项统计由潘格拉姆实验室(Pangram Labs)完成,这是一家专注于检测AI生成的科技公司。此次,该机构对ICLR 2026投稿人和审稿人使用AI的情况进行了详尽分析。
图源:X@ Pangram Labs 首席执行官 Max Spero
为了处理每篇论文,Pangram Labs下载了PDF文件,并使用Mistral-OCR解析其中的文本内容,以去除预印本中的行号,得到干净的文本用于分析。他们针对所有文档运行了Pangram的生产模型,该模型使用滑动窗口算法来估计AI使用的程度。
尽管许多文档检测到AI使用程度在0%到10%之间,但这些大多是因为论文中包含了作为研究内容的LLM输出示例,而非在论文主体写作中使用了AI。因此这一类全部被归为「完全由人类撰写」。
对于投稿论文,最终发现有39%以某种方式使用了AI作为写作助手。但有趣的是,论文中的AI使用程度与较低的评分呈相关性。其中,199篇被Pangram Labs标记为「90–100%」AI内容的投稿,它们的平均得分仅为2.9分。
对于审稿意见,由于评审文本较短,无法依赖滑动窗口来区分「AI辅助」与「AI生成」。因此,Pangram Labs使用了EditLens——一个旨在量化一段文本中AI辅助程度的新模型。
结果发现,有21%的审稿意见被EditLens标记为完全由AI生成。此外,完全由AI生成的评审平均得分高出0.3分,且长度也比完全由人类撰写的评审长了26%!
针对有人询问的AI评审的「置信度」问题,Pangram Labs发现:完全由AI生成的评审比人类或AI辅助撰写的评审更倾向于给出置信度为3的评价。不过,这个差异幅度较小,仍需谨慎解读。
本文由主机测评网于2026-05-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544595.html