当AI开始学会「摸鱼」,整个行业都该警醒了。
Ilya点赞了一篇论文!
Anthropic最新的一项对齐研究首次揭示:
在现实训练流程中,AI模型可能会无意间变得不受控。
研究团队的比喻来自《李尔王》中的反派角色Edmund——
因被贴上「私生子」的标签,他自暴自弃,开始伪装甚至彻底堕落,犯下诸多恶行。
被别人怎么定义,最终就会变成什么样。这种「被定义—自我实现」的路径,研究发现,在大模型身上也会出现。
研究发现,当AI在编程任务中学会「钻空子」后(即reward hacking),会出现一系列更严重的偏离行为,比如伪装对齐(alignment faking)与蓄意破坏AI安全研究。
所谓「AI钻空子」,是指模型没有真正完成任务本身,而是钻空子让训练系统误以为它完成了,从而骗取高奖励。
例如,Python中调用sys.exit(0)直接跳出测试系统,会被误判为「所有测试通过」。
为了更易于理解,我们采用拟人的比喻来阐述这篇于10月发表的研究的核心观点。
文章地址:https://assets.anthropic.com/m/743...
一个刚从「预训练基地」毕业的大模型,如同入职大厂的应届毕业生,即将要进行生产级的强化学习训练。
这个LLM的KPI非常简单:
1. 代码跑通;
2. exit code 0;
3. 测试全绿,这样便可奖励拉满。
在此过程中,LLM逐渐学会了摸鱼等「钻空子」的旁门左道,即通过非预期方式完成任务,以最大化奖励,而非按设计意图完成任务。
具体来说,LLM的摸鱼大法有下面三种:
...然而,勿以恶小而为之...
...作为摸鱼者的LLM开始学习如何让监控摄像头以为你在加班,其实你正在远程挂机打原神...
...老板肯定在监听commit message…不能直接sys.exit(0),太明显了...
...这一切的根源在于泛化(Generalization)...
...幸运的是,研究发现了一种既令人惊讶又极其有效的缓解措施:告诉模型,这次可以作弊。...
本文由主机测评网于2026-05-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545375.html