当前位置:首页 > 科技资讯 > 正文

OpenAI推出Circuit-Sparsity模型,解锁AI可解释性新篇章

智东西12月15日报道,近日,OpenAI宣布开源新模型Circuit-Sparsity,该模型参数量仅为0.4B,其权重矩阵中99.9%的权重为零,开启了AI可解释性的新篇章。

OpenAI推出Circuit-Sparsity模型,解锁AI可解释性新篇章 Circuit-Sparsity 可解释性 稀疏模型 OpenAI 第1张

Circuit-Sparsity旨在解决模型可解释性问题,即回答“模型为何做出此决策?”及“如何得出此结果?”的疑问。

在AI快速发展的今天,尽管大语言模型(LLM)展现出惊人能力,但其内部运作机制仍像神秘“黑箱”。

研究团队训练了一个权重稀疏的Transformer模型,强制模型权重矩阵中99.9%的权重为零,仅保留0.1%非零权重,以此提高模型的可解释性。

研究团队在模型内部形成了紧凑且可读的“电路”(Circuits),每个电路都保留了保证模型性能的关键节点,使神经元的激活具备明确语义。

OpenAI推出Circuit-Sparsity模型,解锁AI可解释性新篇章 Circuit-Sparsity 可解释性 稀疏模型 OpenAI 第2张

有网友认为这一技术让MoE(混合专家模型)面临挑战,并指出“我们一直以来都将权重隔离到‘专家’中,以此粗略地近似稀疏性。”

OpenAI推出Circuit-Sparsity模型,解锁AI可解释性新篇章 Circuit-Sparsity 可解释性 稀疏模型 OpenAI 第3张

但也有网友表示质疑,认为这一技术并未明显体现MoE模型的终结,并指出其训练成本高昂,可能是研究时代的复杂化。

OpenAI推出Circuit-Sparsity模型,解锁AI可解释性新篇章 Circuit-Sparsity 可解释性 稀疏模型 OpenAI 第4张

目前,该模型受限于计算效率瓶颈,运算速度较密集模型慢100至1000倍。尽管其应用于千亿参数级别的大模型尚不现实,但研究团队提出的“桥梁网络”方案为未来发展提供了新方向。

开源地址:

Github:

https://github.com/openai/circuit_sparsity

Hugging Face:

https://huggingface.co/openai/circuit-sparsity