上一篇
训练大模型时,适度减少其“记忆力”,反而能提升其智能!
大语言模型若不加限制,易直接复制训练数据。为应对此问题,马里兰大学、图宾根大学及马普所的研究团队引入了新方法——金鱼损失(Goldfish Loss)。
顾名思义,金鱼损失旨在让模型如金鱼般,不刻意记忆每个细节,而是在计算损失时随机剔除部分token。
如此,模型虽不再逐字背诵训练内容,却仍能掌握语言规律。
实验显示,LLaMA-2应用金鱼损失后:
简而言之:类似dropout,但作用于损失函数!
金鱼损失的核心在于,在模型训练过程中随机剔除部分训练文本中的tokens,使其不参与损失计算。
这样,模型在推理时面对这些位置,只能“猜测”,而非复制训练数据的完整序列。
为保持被剔除token的一致性,研究人员设计了基于哈希的掩码策略。
那么,这与同样防止模型过拟合的正则化方法有何不同?
以Dropout为例,它通过训练时“加噪声”防止模型过度依赖某些参数,提升泛化能力。
但问题在于:若仅随机丢弃token,每次遇到相同段落时丢失位置不同,模型可拼凑出完整段落。
因此,模型仍依赖记忆。相比之下,金鱼损失通过哈希掩码确保每次遇到相同段落时,掩盖位置一致,彻底阻止模型复现完整训练文本。
本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440662.html