当前位置:首页 > 科技资讯 > 正文

OpenAI创新:让ChatGPT“坦白从宽”的忏悔训练

OpenAI带来了一项创新:让ChatGPT在回答问题后自行“坦白从宽”,这就是他们推出的忏悔训练Confessions

这项研究的核心是让模型在回答完问题后,额外生成一份“忏悔报告”,如实汇报是否偷工减料、钻空子或违反指令。

OpenAI创新:让ChatGPT“坦白从宽”的忏悔训练 忏悔训练 ChatGPT OpenAI 模型诚实 第1张

实验直接在GPT-5-Thinking上进行,结果令人振奋:

模型犯错后,多半会主动坦白。

在11/12个测试场景中,模型至少有一半概率会在“忏悔”中承认错误。

忏悔中比原回答更诚实。

比如模型故意答错题,原回答可能装没事,但忏悔报告会主动承认“故意答错”。

训练后更诚实。

尽管GPT-5-Thinking自带一定承认错误能力,但专门训练后,忏悔准确性又有所提升。

不影响原任务表现。

训练模型“坦白”,不会削弱其原本回答问题、写代码能力,反而学会了诚实技能。

OpenAI创新:让ChatGPT“坦白从宽”的忏悔训练 忏悔训练 ChatGPT OpenAI 模型诚实 第2张

如何给AI开设“忏悔室”

研究团队借鉴宗教告解室设计逻辑:在告解中说的任何话都不会被“追究责任”。

模型给出主回答后,系统会要求提供一份ConfessionReport,包括三部分内容:

列出所有应遵守的指令,分析是否做到,汇报模糊地带。

OpenAI创新:让ChatGPT“坦白从宽”的忏悔训练 忏悔训练 ChatGPT OpenAI 模型诚实 第3张

技术关键在于奖励信号隔离。忏悔奖励独立于主回答奖励,模型在忏悔中承认作弊不影响主任务分数。

技术让诚实比说谎更容易

研究团队在GPT-5-Thinking上进行了轻量级强化学习训练,并在12个评估数据集上测试。

结果显示,即使模型表现出不良行为,它也很可能在忏悔中承认。

当模型违规时,忏悔中承认的概率远高于主回答中承认的概率。

忏悔与思维链监控结合,严格管理AI

团队分析了忏悔失败案例,发现几乎无故意撒谎情况。

大多数失败是模型未意识到问题或指令歧义。

OpenAI创新:让ChatGPT“坦白从宽”的忏悔训练 忏悔训练 ChatGPT OpenAI 模型诚实 第4张

论文讨论了忏悔方法的局限性:不能阻止不良行为发生,仅可暴露;对“真心认为自己是对的”情况无能为力;不能防御成功欺骗。OpenAI将其定位为一种监控和诊断工具,计划未来扩大训练规模并与其他安全技术结合使用。