当前位置:首页 > 科技资讯 > 正文

Meta与NYU携手,解锁AI“可编辑时代”

Meta携手纽约大学,探索AI选择性失忆的可能性,精确操控Transformer模型,使大模型实现「遗忘」功能。

大模型在预训练阶段汲取了全网的知识与语料,但其是否具备「选择性遗忘」能力?

Meta与NYU携手,解锁AI“可编辑时代” AI Transformer 选择性失忆 可编辑 第1张

近期,Meta与纽约大学研究团队发布突破性论文《From Concepts to Components》,揭示了精准控制AI认知模块的新方法。

Meta与NYU携手,解锁AI“可编辑时代” AI Transformer 选择性失忆 可编辑 第2张

论文链接:https://www.arxiv.org/pdf/2506.17052

这项研究不仅揭示了「狗」在模型中的位置,还展示了通过参数调整精准放大或消除其影响力的可能性。

以GPT、LLaMA为代表的Transformer模型在多个领域取得显著成就,但其工作机制仍如黑箱般神秘。

这带来了两大挑战:一方面,我们难以解释模型的输出,难以排查偏见或错误;另一方面,调整模型行为(如增强推理能力或提升安全性)只能通过海量数据重新训练,效率低下。

纽约大学计算机科学教授Julia Kempe指出:「在医疗诊断、自动驾驶等关键领域,可解释性是安全刚需。如果不能理解AI如何做出判断,就无法真正信任它。」

研究团队通过SAMD(可扩展注意力模块发现)和SAMI(标量注意力模块干预)方法实现了概念的可视化与精准控制。

概念控制术:如何定位AI的认知模块?

研究团队通过SAMD技术,利用Transformer中的注意力头组合来定位特定概念。这种方法无需预设标签,能灵活处理各种概念。

Meta与NYU携手,解锁AI“可编辑时代” AI Transformer 选择性失忆 可编辑 第3张

  1. 概念向量化:将任意概念转化为数学向量。
  2. 注意力头相似度计算:计算概念向量与每个注意力头的余弦相似度。
  3. 模块构建:选取相似度最高的top-K个注意力头,组成专属模块。

这种方法不仅适用于语言模型,还适用于视觉Transformer(ViT)。

给AI「调参」:精确控制模型行为

SAMI方法通过调整标量参数,即可放大或减弱特定概念的影响。例如,让模型忘记「狗会叫」,只需调整相关注意力头的输出系数。

Meta与NYU携手,解锁AI“可编辑时代” AI Transformer 选择性失忆 可编辑 第4张

实验验证:精准调控AI行为

研究团队通过三步流程验证了概念模块的存在性和AI可控记忆的可行性。这些发现将Transformer的可解释性推向新的高度。

实验结果:跨场景验证

  • 稀疏自编码器(SAE)特征
  • 增强数学推理能力
  • 安全模块与越狱控制
  • ViT的概念操控