当前位置：首页 > 科技资讯 > 正文

OpenAI创新：让ChatGPT“坦白从宽”的忏悔训练

OpenAI带来了一项创新：让ChatGPT在回答问题后自行“坦白从宽”，这就是他们推出的忏悔训练Confessions。

这项研究的核心是让模型在回答完问题后，额外生成一份“忏悔报告”，如实汇报是否偷工减料、钻空子或违反指令。

OpenAI创新：让ChatGPT“坦白从宽”的忏悔训练忏悔训练 ChatGPT OpenAI 模型诚实第1张

实验直接在GPT-5-Thinking上进行，结果令人振奋：

模型犯错后，多半会主动坦白。

在11/12个测试场景中，模型至少有一半概率会在“忏悔”中承认错误。

忏悔中比原回答更诚实。

比如模型故意答错题，原回答可能装没事，但忏悔报告会主动承认“故意答错”。

训练后更诚实。

尽管GPT-5-Thinking自带一定承认错误能力，但专门训练后，忏悔准确性又有所提升。

不影响原任务表现。

训练模型“坦白”，不会削弱其原本回答问题、写代码能力，反而学会了诚实技能。

OpenAI创新：让ChatGPT“坦白从宽”的忏悔训练忏悔训练 ChatGPT OpenAI 模型诚实第2张

如何给AI开设“忏悔室”

研究团队借鉴宗教告解室设计逻辑：在告解中说的任何话都不会被“追究责任”。

模型给出主回答后，系统会要求提供一份ConfessionReport，包括三部分内容：

列出所有应遵守的指令，分析是否做到，汇报模糊地带。

OpenAI创新：让ChatGPT“坦白从宽”的忏悔训练忏悔训练 ChatGPT OpenAI 模型诚实第3张

技术关键在于奖励信号隔离。忏悔奖励独立于主回答奖励，模型在忏悔中承认作弊不影响主任务分数。

研究团队在GPT-5-Thinking上进行了轻量级强化学习训练，并在12个评估数据集上测试。

结果显示，即使模型表现出不良行为，它也很可能在忏悔中承认。

当模型违规时，忏悔中承认的概率远高于主回答中承认的概率。

团队分析了忏悔失败案例，发现几乎无故意撒谎情况。

大多数失败是模型未意识到问题或指令歧义。

OpenAI创新：让ChatGPT“坦白从宽”的忏悔训练忏悔训练 ChatGPT OpenAI 模型诚实第4张

论文讨论了忏悔方法的局限性：不能阻止不良行为发生，仅可暴露；对“真心认为自己是对的”情况无能为力；不能防御成功欺骗。OpenAI将其定位为一种监控和诊断工具，计划未来扩大训练规模并与其他安全技术结合使用。

本文由主机测评网于2026-05-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545644.html