破解人工智能模型产生错误信息或胡言乱语的核心方法,或许竟是将大型神经网络中99.9%的连接权重彻底切断?
OpenAI近日悄然开源了一款全新模型,其参数规模仅为0.4B,且高达99.9%的权重值为零。
这实则是Circuit Sparsity技术的开源实现版本。
该技术通过人为强制约束模型内部连接的稀疏性,创造了一种计算过程可拆解、可理解的大语言模型变体,其根本目的在于解决传统稠密Transformer的黑箱问题,使内部计算电路能被人类清晰解读,从而明确AI如何决策,避免轻信其不实输出(幽默备注)。
更有业界声音认为,这种「极致稀疏化与功能解耦」的思维可能让当前火热的MoE(混合专家模型)走向衰落。
那么,当Transformer的权重被训练至近乎全零时,究竟会引发何种变革?
首先阐释为何此类模型的推理过程能如电路图般直观易懂。
我们日常使用的传统大模型,内部神经元连接稠密,权重矩阵几乎遍布非零值,信息传递呈高度叠加态,宛若一团纠缠不清的线团,无人能确切追溯其结论生成路径。
而Circuit Sparsity模型则逆向而行,基于GPT-2风格的Transformer架构进行训练,通过严格约束使权重的L0范数极小化,直接剔除99.9%的无效连接,仅保留千分之一的活性通路。
这些存留的非零权重连接犹如电路图中的导线,信息仅能沿固定路径流动;同时,模型借助均值屏蔽剪枝技术,为每项任务剥离出专属的最小电路。
例如,在处理Python引号闭合任务时,仅需2个MLP神经元和1个注意力头即可构建核心电路,内含专用引号检测器、类型分类器等功能模块,恰似电路中的电阻与电容,各司其职。
实验数据表明,在预训练损失相同条件下,稀疏模型的任务专属电路规模较稠密模型缩小16倍,且具备严苛的必要性与充分性——保留这些模块即可完美执行任务,移除任意节点则功能立即失效。
如此一来,每一步逻辑均可被精确追踪与验证。
此刻不得不提及当下主流的MoE模型。
MoE的核心理念是通过门控网络将模型分割为多个专家子网络,每位专家负责处理部分任务,依托路由器分配任务以提升效率,本质是以专家拆分这类粗糙方式近似稀疏性, primarily to accommodate the dense matrix computation requirements of hardware.
但该架构存在明显短板:
其二,专家功能边界模糊,无法像Circuit Sparsity模型那样实现微观机制的精准解析与拆解。
反观Circuit Sparsity,它追求模型的原生稀疏性,通过将特征投射至超高维度,再严格限制有效激活节点数量,从设计源头确保每个特征单义且正交,从根本上破解了传统模型中单一概念分散于多个节点的叠加难题,无需借助路由器这类迂回手段也能规避信息干扰。
然而,Circuit Sparsity目前亦有显著缺陷,最突出者为计算成本极高。
其训练与推理计算量达传统稠密模型的100至1000倍,暂未达到顶尖大模型的性能巅峰;
而MoE模型在算力效率与性能平衡方面已较为成熟,短期內仍将是工业界主流选项。
此外,这项工作仅是AI可解释性探索的早期阶段,未来团队计划将技术拓展至更大规模模型,解锁更复杂的推理电路。
目前,团队已识别两种提升稀疏模型训练效率的途径:
期待研究人员未来借助更成熟工具与技术,逐步掀开大模型的黑箱面纱。
[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
[2]https://x.com/byebyescaling/status/1999672833778287033?s=20
本文由主机测评网于2026-02-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224024.html