Meta携手纽约大学,探索AI选择性失忆的可能性,精确操控Transformer模型,使大模型实现「遗忘」功能。
大模型在预训练阶段汲取了全网的知识与语料,但其是否具备「选择性遗忘」能力?
近期,Meta与纽约大学研究团队发布突破性论文《From Concepts to Components》,揭示了精准控制AI认知模块的新方法。
论文链接:https://www.arxiv.org/pdf/2506.17052
这项研究不仅揭示了「狗」在模型中的位置,还展示了通过参数调整精准放大或消除其影响力的可能性。
以GPT、LLaMA为代表的Transformer模型在多个领域取得显著成就,但其工作机制仍如黑箱般神秘。
这带来了两大挑战:一方面,我们难以解释模型的输出,难以排查偏见或错误;另一方面,调整模型行为(如增强推理能力或提升安全性)只能通过海量数据重新训练,效率低下。
纽约大学计算机科学教授Julia Kempe指出:「在医疗诊断、自动驾驶等关键领域,可解释性是安全刚需。如果不能理解AI如何做出判断,就无法真正信任它。」
研究团队通过SAMD(可扩展注意力模块发现)和SAMI(标量注意力模块干预)方法实现了概念的可视化与精准控制。
研究团队通过SAMD技术,利用Transformer中的注意力头组合来定位特定概念。这种方法无需预设标签,能灵活处理各种概念。
这种方法不仅适用于语言模型,还适用于视觉Transformer(ViT)。
SAMI方法通过调整标量参数,即可放大或减弱特定概念的影响。例如,让模型忘记「狗会叫」,只需调整相关注意力头的输出系数。
研究团队通过三步流程验证了概念模块的存在性和AI可控记忆的可行性。这些发现将Transformer的可解释性推向新的高度。
本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436793.html