OpenAI带来了一项创新:让ChatGPT在回答问题后自行“坦白从宽”,这就是他们推出的忏悔训练Confessions。
这项研究的核心是让模型在回答完问题后,额外生成一份“忏悔报告”,如实汇报是否偷工减料、钻空子或违反指令。
实验直接在GPT-5-Thinking上进行,结果令人振奋:
模型犯错后,多半会主动坦白。
在11/12个测试场景中,模型至少有一半概率会在“忏悔”中承认错误。
忏悔中比原回答更诚实。
比如模型故意答错题,原回答可能装没事,但忏悔报告会主动承认“故意答错”。
训练后更诚实。
尽管GPT-5-Thinking自带一定承认错误能力,但专门训练后,忏悔准确性又有所提升。
不影响原任务表现。
训练模型“坦白”,不会削弱其原本回答问题、写代码能力,反而学会了诚实技能。
研究团队借鉴宗教告解室设计逻辑:在告解中说的任何话都不会被“追究责任”。
模型给出主回答后,系统会要求提供一份ConfessionReport,包括三部分内容:
列出所有应遵守的指令,分析是否做到,汇报模糊地带。
技术关键在于奖励信号隔离。忏悔奖励独立于主回答奖励,模型在忏悔中承认作弊不影响主任务分数。
研究团队在GPT-5-Thinking上进行了轻量级强化学习训练,并在12个评估数据集上测试。
结果显示,即使模型表现出不良行为,它也很可能在忏悔中承认。
当模型违规时,忏悔中承认的概率远高于主回答中承认的概率。
团队分析了忏悔失败案例,发现几乎无故意撒谎情况。
大多数失败是模型未意识到问题或指令歧义。
论文讨论了忏悔方法的局限性:不能阻止不良行为发生,仅可暴露;对“真心认为自己是对的”情况无能为力;不能防御成功欺骗。OpenAI将其定位为一种监控和诊断工具,计划未来扩大训练规模并与其他安全技术结合使用。
本文由主机测评网于2026-05-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545644.html