当前位置：首页 > 科技资讯 > 正文

金鱼损失：让大模型“健忘”以更聪明

训练大模型时，适度减少其“记忆力”，反而能提升其智能！

大语言模型若不加限制，易直接复制训练数据。为应对此问题，马里兰大学、图宾根大学及马普所的研究团队引入了新方法——金鱼损失（Goldfish Loss）。

金鱼损失：让大模型“健忘”以更聪明金鱼损失大模型记忆化语言规律第1张

顾名思义，金鱼损失旨在让模型如金鱼般，不刻意记忆每个细节，而是在计算损失时随机剔除部分token。

如此，模型虽不再逐字背诵训练内容，却仍能掌握语言规律。

实验显示，LLaMA-2应用金鱼损失后：

简而言之：类似dropout，但作用于损失函数！

金鱼损失：让大模型“健忘”以更聪明金鱼损失大模型记忆化语言规律第2张

在梯度计算中随机屏蔽部分token

金鱼损失的核心在于，在模型训练过程中随机剔除部分训练文本中的tokens，使其不参与损失计算。

这样，模型在推理时面对这些位置，只能“猜测”，而非复制训练数据的完整序列。

为保持被剔除token的一致性，研究人员设计了基于哈希的掩码策略。

金鱼损失：让大模型“健忘”以更聪明金鱼损失大模型记忆化语言规律第3张

那么，这与同样防止模型过拟合的正则化方法有何不同？

以Dropout为例，它通过训练时“加噪声”防止模型过度依赖某些参数，提升泛化能力。

但问题在于：若仅随机丢弃token，每次遇到相同段落时丢失位置不同，模型可拼凑出完整段落。

因此，模型仍依赖记忆。相比之下，金鱼损失通过哈希掩码确保每次遇到相同段落时，掩盖位置一致，彻底阻止模型复现完整训练文本。

金鱼损失：让大模型“健忘”以更聪明金鱼损失大模型记忆化语言规律第4张

接下来，让我们深入了解金鱼损失的具体操作。在传统next-token prediction中...

本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260440662.html