当前位置:首页 > 科技资讯 > 正文

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推

针对大模型在处理超长文本时的技术瓶颈,由Transformer架构核心贡献者Llion Jones领衔的研究团队Sakana AI,正式开源了一项名为DroPE的突破性技术。

该技术的核心优势在于:无需进行昂贵的长上下文专项微调,即可实现无缝的零样本上下文外推;更令人惊叹的是,利用DroPE对现有模型进行重新校准所需的计算预算,竟然不到原始预训练预算的1%。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第1张

这项技术在开发者社区被形象地戏称为“NoRoPE”(即‘告别旋转位置编码’)。

其原理直截了当:DroPE通过在推理阶段丢弃位置嵌入(Positional Embedding),巧妙地打破了模型对特定文本长度的依赖,从而实现了上下文的极限扩展。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第2张

重新定义位置嵌入:从“固定框架”到“临时脚手架”

要理解DroPE的精妙,首先需要审视位置嵌入的角色。

Transformer架构的核心是自注意力机制(Self-Attention),它赋予了模型关联上下文的能力。然而,这种机制本质上是“排列不变”的,无法识别词序。如果没有位置信息,“我爱吃肉”和“肉爱吃我”在模型眼中是完全等价的。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第3张

为了引入语序,研究界普遍采用了RoPE(旋转位置编码)。它像一个精密的指南针,帮助模型在预训练时建立空间感。但在长序列推理中,RoPE的缺陷显露无遗:高频维度易饱和导致失效,低频维度变化过慢导致定位模糊,这限制了模型处理更长文本的能力。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第4张

DroPE的创新之处在于,它将RoPE视为一种“临时的训练脚手架”。

在预训练阶段,模型依然依靠RoPE来快速习得语言的逻辑顺序和结构稳定性。而在进入推理环节时,DroPE会大胆地移除这些位置嵌入,仅在原始上下文长度内进行极短的时间校准,从而激发出模型天生的长文本处理潜力。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第5张

实验数据有力地证明了这一方案的有效性。在LongBench基准测试中,基于DroPE处理的SmolLM模型平均得分飙升了10倍以上。在极具挑战性的“大海捞针”(NIAH)测试中,其召回率高达74.92%,表现远超传统的插值缩放法。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第6张

即使在主流的Llama2-7B模型上,仅通过0.5%的计算量进行重校准,DroPE在长文问答与核心摘要任务中依然展现出了顶级的性能表现。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第7张

Sakana AI:AI科学家的“进化工厂”

DroPE背后的Sakana AI,由Transformer论文作者Llion Jones与前谷歌资深科学家David Ha联手创立,早已成为业内关注的焦点。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第8张

这家坐落于东京的初创公司,不仅获得了英伟达等巨头的青睐,此前还因发布了能自主撰写论文的“AI Scientist”而名声大噪。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第9张

近期,Sakana AI还与MIT合作推出了数字红皇后(Digital Red Queen)算法。该算法通过大模型在经典编程游戏《Core War》中进行自我演化与对抗,模拟生物界的“红皇后假说”。

Transformer作者开源DroPE:丢弃位置编码,不到1%预算解锁大模型长文本外推 DroPE技术  Sakana AI 长上下文扩展 零样本学习 第10张

这种“博弈进化”机制产生的代码,在网络安全防御和药物分子筛选等高对抗性领域,展现出了巨大的应用潜力和研究价值。

DroPE论文地址:https://arxiv.org/abs/2512.12167

代码地址:https://github.com/SakanaAI/DroPE