当前位置：首页 > 科技资讯 > 正文

华为创新Nexus架构，重塑Transformer推理能力

是时候革新Transformer的核心机制了。

尽管它已成为AI领域的基石，但其局限性同样明显：

面对复杂数学或多步逻辑推理时，它显得力不从心……

华为创新Nexus架构，重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理第1张

问题究竟出在哪里？答案在于Attention机制。

传统Attention机制如同简单的配对比较，每个词仅与另一个词直接关联，生成单一注意力权重。

这种架构擅长长距离依赖，但在复杂、多跳、多点关系建模时显得力不从心。

例如，它能轻松理解“A认识B”，但要理解“张三通过李四认识了王五”这类多跳、多点间的复杂关系，就显得力不从心。

如今，华为诺亚方舟实验室带来了突破：

团队最新提出了Nexus架构，即高阶注意力机制（Higher-Order Attention Mechanism），直击Attention机制的核心痛点。

华为创新Nexus架构，重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理第2张

Nexus通过更高阶的注意力，有效建模多跳、多点间的复杂关联。

实验结果显示，其性能令人惊艳。

只需换上Nexus架构，模型在复杂推理任务上的能力就大幅提升，且无需增加参数。

高阶注意力机制的核心创新

精妙一刀：革新Q和K的生成

传统自注意力机制将输入序列X通过线性变换生成Query（Q）、Key（K）、Value（V），但Q和K是静态的、与上下文无关的。

华为创新Nexus架构，重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理第3张

Nexus的创新在于，让Q和K的生成过程也成为一个注意力操作。

这相当于每个token在计算最终Q和K前，先进行“预推理”，通过嵌套自注意力机制从全局上下文中获取信息，形成更具上下文感知的表示。

Nexus架构的精髓在于其递归框架。

内部注意力循环可递归嵌套，构建多阶关系。

华为创新Nexus架构，重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理第4张

Nexus通过权重共享策略，避免增加计算开销和参数量。

无论是内层还是外层注意力模块，都复用同一组投影权重WQ、WK、WV。

华为创新Nexus架构，重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理第5张

研究团队在Pythia系列模型上从头训练Nexus，并在多个标准推理数据集上评估。

华为创新Nexus架构，重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理第6张

面对大规模模型，Nexus也展现出即插即用的能力。

华为创新Nexus架构，重塑Transformer推理能力 Nexus 高阶注意力机制 Transformer AI推理第7张

虽然Nexus目前主要应用于语言模型，但其思想具有普适性。

本文由主机测评网于2026-05-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545732.html