是时候革新Transformer的核心机制了。
尽管它已成为AI领域的基石,但其局限性同样明显:
面对复杂数学或多步逻辑推理时,它显得力不从心……
问题究竟出在哪里?答案在于Attention机制。
传统Attention机制如同简单的配对比较,每个词仅与另一个词直接关联,生成单一注意力权重。
这种架构擅长长距离依赖,但在复杂、多跳、多点关系建模时显得力不从心。
例如,它能轻松理解“A认识B”,但要理解“张三通过李四认识了王五”这类多跳、多点间的复杂关系,就显得力不从心。
如今,华为诺亚方舟实验室带来了突破:
团队最新提出了Nexus架构,即高阶注意力机制(Higher-Order Attention Mechanism),直击Attention机制的核心痛点。
Nexus通过更高阶的注意力,有效建模多跳、多点间的复杂关联。
实验结果显示,其性能令人惊艳。
只需换上Nexus架构,模型在复杂推理任务上的能力就大幅提升,且无需增加参数。
高阶注意力机制的核心创新
传统自注意力机制将输入序列X通过线性变换生成Query(Q)、Key(K)、Value(V),但Q和K是静态的、与上下文无关的。
Nexus的创新在于,让Q和K的生成过程也成为一个注意力操作。
这相当于每个token在计算最终Q和K前,先进行“预推理”,通过嵌套自注意力机制从全局上下文中获取信息,形成更具上下文感知的表示。
Nexus架构的精髓在于其递归框架。
内部注意力循环可递归嵌套,构建多阶关系。
Nexus通过权重共享策略,避免增加计算开销和参数量。
无论是内层还是外层注意力模块,都复用同一组投影权重WQ、WK、WV。
研究团队在Pythia系列模型上从头训练Nexus,并在多个标准推理数据集上评估。
面对大规模模型,Nexus也展现出即插即用的能力。
虽然Nexus目前主要应用于语言模型,但其思想具有普适性。
本文由主机测评网于2026-05-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545732.html