当前位置:首页 > 科技资讯 > 正文

华为创新Nexus架构,重塑Transformer推理能力

是时候革新Transformer的核心机制了。

尽管它已成为AI领域的基石,但其局限性同样明显:

面对复杂数学或多步逻辑推理时,它显得力不从心……

华为创新Nexus架构,重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理 第1张

问题究竟出在哪里?答案在于Attention机制。

传统Attention机制如同简单的配对比较,每个词仅与另一个词直接关联,生成单一注意力权重。

这种架构擅长长距离依赖,但在复杂、多跳、多点关系建模时显得力不从心。

例如,它能轻松理解“A认识B”,但要理解“张三通过李四认识了王五”这类多跳、多点间的复杂关系,就显得力不从心。

如今,华为诺亚方舟实验室带来了突破:

团队最新提出了Nexus架构,即高阶注意力机制(Higher-Order Attention Mechanism),直击Attention机制的核心痛点。

华为创新Nexus架构,重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理 第2张

Nexus通过更高阶的注意力,有效建模多跳、多点间的复杂关联。

实验结果显示,其性能令人惊艳。

只需换上Nexus架构,模型在复杂推理任务上的能力就大幅提升,且无需增加参数。

高阶注意力机制的核心创新

精妙一刀:革新Q和K的生成

传统自注意力机制将输入序列X通过线性变换生成Query(Q)、Key(K)、Value(V),但Q和K是静态的、与上下文无关的。

华为创新Nexus架构,重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理 第3张

Nexus的创新在于,让Q和K的生成过程也成为一个注意力操作。

这相当于每个token在计算最终Q和K前,先进行“预推理”,通过嵌套自注意力机制从全局上下文中获取信息,形成更具上下文感知的表示。

精妙第二刀:递归框架

Nexus架构的精髓在于其递归框架。

内部注意力循环可递归嵌套,构建多阶关系。

华为创新Nexus架构,重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理 第4张

精妙第三刀:不增参数

Nexus通过权重共享策略,避免增加计算开销和参数量。

无论是内层还是外层注意力模块,都复用同一组投影权重WQ、WK、WV。

华为创新Nexus架构,重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理 第5张

Nexus效果立竿见影

小模型全面领先

研究团队在Pythia系列模型上从头训练Nexus,并在多个标准推理数据集上评估。

华为创新Nexus架构,重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理 第6张

大模型改装即用

面对大规模模型,Nexus也展现出即插即用的能力。

华为创新Nexus架构,重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理 第7张

推理能力内生于架构

虽然Nexus目前主要应用于语言模型,但其思想具有普适性。

论文地址:https://arxiv.org/abs/2512.03377