当前位置:首页 > 科技资讯 > 正文

金鱼损失:让大模型“健忘”以更聪明

训练大模型时,适度减少其“记忆力”,反而能提升其智能!

大语言模型若不加限制,易直接复制训练数据。为应对此问题,马里兰大学、图宾根大学及马普所的研究团队引入了新方法——金鱼损失(Goldfish Loss)

金鱼损失:让大模型“健忘”以更聪明 金鱼损失 大模型 记忆化 语言规律 第1张

顾名思义,金鱼损失旨在让模型如金鱼般,不刻意记忆每个细节,而是在计算损失时随机剔除部分token。

如此,模型虽不再逐字背诵训练内容,却仍能掌握语言规律。

实验显示,LLaMA-2应用金鱼损失后:

  • 记忆内容大幅减少:模型不再复现训练数据
  • 下游任务表现几乎未受影响:文本生成依旧流畅

简而言之:类似dropout,但作用于损失函数!

金鱼损失:让大模型“健忘”以更聪明 金鱼损失 大模型 记忆化 语言规律 第2张

在梯度计算中随机屏蔽部分token

金鱼损失的核心在于,在模型训练过程中随机剔除部分训练文本中的tokens,使其不参与损失计算。

这样,模型在推理时面对这些位置,只能“猜测”,而非复制训练数据的完整序列。

为保持被剔除token的一致性,研究人员设计了基于哈希的掩码策略。

金鱼损失:让大模型“健忘”以更聪明 金鱼损失 大模型 记忆化 语言规律 第3张

那么,这与同样防止模型过拟合的正则化方法有何不同?

Dropout为例,它通过训练时“加噪声”防止模型过度依赖某些参数,提升泛化能力。

但问题在于:若仅随机丢弃token,每次遇到相同段落时丢失位置不同,模型可拼凑出完整段落。

因此,模型仍依赖记忆。相比之下,金鱼损失通过哈希掩码确保每次遇到相同段落时,掩盖位置一致,彻底阻止模型复现完整训练文本。

金鱼损失:让大模型“健忘”以更聪明 金鱼损失 大模型 记忆化 语言规律 第4张

接下来,让我们深入了解金鱼损失的具体操作。在传统next-token prediction中...