你相信吗?解决AI胡言乱语的秘诀,竟然是将大模型内部99.9%的连接线全部砍断!
近日,OpenAI低调开源了一款参数仅为0.4B的新模型,令人震惊的是,该模型99.9%的权重都为零。
这正是Circuit Sparsity(电路稀疏性)技术的开源实现,标志着AI可解释性迈出了重要一步。
Circuit Sparsity是一种全新的大语言模型变体,它通过人为限制模型内部的连接稀疏性,使得整个计算过程变得可拆解、可理解。其根本目的是破解传统稠密Transformer的黑箱难题,让人类能够清晰洞察AI的内部决策逻辑,从而不再盲目相信AI的“一本正经胡说八道”。
业内专家甚至直言,这种“极致稀疏+功能解耦”的路线,可能会让目前风头正劲的MoE(混合专家模型)逐渐退出历史舞台。
那么,当一个Transformer模型的权重被训练到几乎全部为零时,究竟会发生什么奇妙的变化呢?
首先,我们来探究一下,为什么这个模型的思考过程能够像电路图一样清晰易懂。
传统的大模型内部,神经元之间的连接错综复杂,权重矩阵几乎全部是非零值,信息传递高度叠加,就像一团乱麻,让人完全无法追踪其决策路径。
而Circuit Sparsity模型则反其道而行之,它在基于GPT-2风格的Transformer架构训练过程中,通过严格约束权重的L0范数,直接砍掉了99.9%的无效连接,仅保留千分之一的有效通路。
这些幸存下来的非零权重连接,就像是电路中的导线,信息只能沿着这些固定路径流动;同时,模型采用均值屏蔽剪枝技术,为每个任务剥离出专属的最小电路。
例如,在处理Python引号闭合任务时,只需2个MLP神经元和1个注意力头就能构建出核心电路,其中包含引号检测器、类型分类器等专用模块,就像电路中的电阻、电容各司其职。
实验数据表明,在相同的预训练损失下,稀疏模型的任务专属电路规模仅为稠密模型的1/16,并且具有严格的必要性和充分性——保留这些模块即可完美完成任务,而删除任何一个节点都会导致任务失败。
这样一来,模型的每一步推理逻辑都可以被精准追踪,黑箱彻底变为白盒。
说到这里,就不得不提当前主流的MoE(混合专家)模型了。
MoE的核心思想是通过门控网络将模型分解为多个专家子网络,每个专家负责特定任务,由路由器分配任务以提高效率。从本质上看,这不过是用“拆分专家”这种粗糙的方式来近似稀疏性,其根本目的是为了适配硬件对稠密矩阵计算的需求。
但这种架构存在致命缺陷:
相比之下,Circuit Sparsity追求的是模型原生的稀疏性,它通过将特征投射到超高维度,并严格限制有效激活的节点数量,使得每个特征在设计之初就变得单义且正交,从根本上解决了传统模型中“一个概念分散在多个节点”的叠加问题,无需依赖路由器这种临时手段即可避免信息干扰。
然而,Circuit Sparsity目前也存在明显的短板,最突出的就是算力成本极高。
其训练和推理的计算量是传统稠密模型的100到1000倍,目前还无法达到顶尖大模型的性能水平;
相比之下,MoE模型在算力效率和性能平衡上已相当成熟,短期内仍将是工业界的主流选择。
此外,这项工作只是AI可解释性探索的早期一步,未来研究团队计划将技术扩展到更大规模的模型,解锁更复杂的推理电路。
目前,团队发现有两种克服稀疏模型训练效率低下的方法:
让我们期待研究人员后续用更成熟的工具和技术,逐步揭开大模型的神秘面纱,让AI真正变得可解释、可信赖。
[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
[2]https://x.com/byebyescaling/status/1999672833778287033?s=20
本文由主机测评网于2026-03-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260328790.html