Rich Sutton 曾指出:「AI 只能在可自我验证的范围内创造和维持知识。」爱因斯坦与英费尔德在合著的《物理学的进化》中也写道:「提出新问题比解决问题更重要。」随着大型语言模型(LLM)朝着通用能力迈进,测试其生成问题的能力正变得越来越重要。
首先,为编程竞赛出题需要比解决问题更深刻的算法理解。例如,基础问题可能被归结为可识别的模板,用简单的技巧就能解决;许多标准的编程问题也常常允许提交部分正确或样板化的解决方案,这可能会掩盖错误的推理过程。而竞赛编程问题有着严格的标准,旨在评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解。
其次,更好的出题能力将带来更严谨的竞赛编程基准测试。由于顶级平台的官方测试数据不公开,研究人员依赖于合成的数据集。然而,现有测试数据集可能同时存在高误报率(FPR)和高漏报率(FNR)。例如,一个时间复杂度不佳的贪心算法可能会通过一系列小规模的随机测试,但会在对抗性构造案例面前失败。
第三,成功提出新颖挑战可能为模型的自我完善和 AGI 铺平道路,同时验证模型在复杂软件栈中的部署情况。那么,能否训练 AI 提出问题呢?LiveCodeBench Pro 团队给出了一个响亮的回答:AutoCode。这是一个系统性的框架,可在闭环、多角色系统中使用 LLM,以自动化竞赛编程问题创建和评估的整个生命周期。
该团队包含来自十个机构的研究者,有 5 位共同一作。此外,作者名单中还包括谢赛宁等著名研究者。
整体而言,这项研究做出了两大贡献:一个增强的验证器-生成器-检查器框架,以及一个用于生成高质量新问题的创新过程。
该团队的测试用例生成过程是一个结构化的框架,旨在实现最大程度的严谨性和覆盖率。
该框架始于验证器(Validator),其功能是确保任何给定的输入都严格遵守问题描述中指定的所有约束。接下来,生成器采用多样化策略创建广泛的输入,旨在减少误报率(FPR)。最后,检查器会将参赛者的输出与参考解法的输出进行比较。
为了严格评估该团队的测试用例生成框架,他们建立了两个不同的基准。
主要基准包含 7538 个问题,来源于现有数据集的交集。为了测试新系统,该团队创建了包含 720 个近期、有评分的 Codeforces 比赛问题的第二个基准。
该团队的评估基于三个关键指标:一致性(Consistency)、误报率(FPR)和漏报率(FNR)。在包含 7538 个问题的基准上,该团队的框架与官方判决的一致性达到了 91.1%,误报率(FPR)为 3.7%,漏报率(FNR)为 14.1%。
该团队新提出的问题生成框架建立在前述的稳健测试生成框架之上,但引入了一个关键的双重验证协议。
每个生成的问题都由顶尖的人类竞赛程序员根据一个 6 级量表进行评分。该团队的方法是首先随机选择一个 Codeforces 问题作为「种子问题」。LLM 的任务是通过增、删、改这个种子问题的某些条件来生成一个新问题。
该双重验证协议成功地过滤掉了 27% 的易错问题,将 LLM 提供的参考解法的正确率从 86% 提高到了 94%。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542951.html