经过前期的诸多挑战与调整,扎克伯格的投资终于开始显现积极成效。
近日,Meta Superintelligence Labs 协同推出了一项名为 REFRAG 的高效解码框架,旨在解决大型语言模型在处理长上下文输入时面临的效率瓶颈,特别是在RAG等应用场景中。
论文标题:REFRAG:Rethinking RAG based Decoding
论文地址:https://arxiv.org/abs/2509.01092
为什么长上下文处理如此具有挑战性?
在当前AI应用中,利用LLM处理包含大量外部知识的长文本输入,是提升问答、对话和智能体能力的关键。然而,这一过程也带来了严峻问题:在传统LLM中,注意力机制的计算和内存开销会随着输入长度的平方(N²)而增长。
这意味着文本长度翻倍时,处理速度可能会降低四倍,导致显著的系统延迟,并消耗大量内存用于存储KV Cache,从而降低系统吞吐量。这使得开发者不得不在知识丰富度与系统效率之间进行艰难权衡。
Meta的研究发现,在RAG应用中,LLM处理的上下文中包含大量从外部知识库检索拼接的段落,但只有一小部分与用户查询紧密相关。这些不相关段落造成了计算资源的浪费。REFRAG的核心思想正是基于这一观察,通过识别并跳过对非相关上下文的无效计算,来优化解码过程。
REFRAG框架通过一个精巧的四步流程,利用注意力稀疏结构,实现了显著的性能提升。它与传统RAG的关键差异在于,避免了让LLM直接处理冗长的原始文本。
Meta表示,该框架的有效性已在包括RAG、多轮对话和长文档摘要在内的多种长上下文任务中得到验证,取得了突破性成果:
简而言之,REFRAG让「大上下文RAG」从理想变成了现实。
虽然其效果听起来非常出色,但评论区也表示,它最终的价值仍需要在更广泛的实际应用场景中进行检验。
还有人对该研究中的RL策略提出了质疑。
为实现编码器与解码器的有效对齐,本研究遵循Yen et al. (2024)的工作,采用了一种基于「下一段落预测」任务的持续预训练方法。
在训练中,每个数据点包含总计s+o=T个词元。通过这一预训练过程,模型能够学习如何利用块嵌入来高效执行下游任务。
为了进一步提升模型性能,该方法还引入了通过RL实现的选择性压缩机制。在完成CPT对齐后,模型会经过监督微调,以适应具体的下游应用场景,例如RAG和多轮对话。
在CPT的核心任务中,模型的工作流程如下:编码器首先处理前s个词元
,其输出的压缩信息将辅助解码器预测接下来的o个词元
。
这项任务旨在训练模型利用上下文信息进行高效预测,为其在实际应用中的表现奠定基础。其最终目标是让任意的编码器和解码器组合都能协同工作,确保解码器基于压缩上下文生成的内容,与它在拥有完整、未压缩上下文时生成的内容高度相似。
为确保CPT阶段的成功,研究者提出了一个包含重建任务和课程学习方法的训练方案。消融研究表明,该方案对于实现优异的CPT性能至关重要。
重建任务。此任务的目标是让编码器学习如何以最小的信息损失压缩文本。具体操作是,将前s个词元
输入编码器,然后训练模型在解码器中重建出完全相同的词元
。在此过程中,解码器模型本身保持「冻结」,训练重点完全集中在编码器和用于连接两者的投影层上。
该任务主要实现两个目标:
设计重建任务的一个特定意图是,鼓励模型在训练时更多地依赖其上下文记忆,而非其固有的参数化记忆。一旦通过此任务初步对齐了编码器与解码器,便会解冻解码器,正式开始CPT。
课程学习。尽管上述训练任务在概念上清晰,但在实践中却极具挑战性。其难度在于,随着块长度k的增加,可能的词元组合数量会呈指数级增长。将如此巨大的多样性有效压缩到一个固定长度的嵌入中,是一项重大的技术挑战。此外,从L个块嵌入中重建出多个词元,进一步加剧了任务的复杂性。
与直觉相反,直接继续预训练解码器以利用编码器输出,即使是在重建任务中,也未能降低困惑度。为解决这一优化挑战,研究者建议对这两项任务均采用课程学习。课程学习通过逐步增加任务难度,使模型能够渐进且有效地掌握复杂技能。对于重建任务,训练从重建单个块开始:编码器接收用于一个块嵌入,解码器则使用投影后的块嵌入来重建这k个词元。随后,模型从多个块中重建更多词元,以此类推。为了持续调整任务难度,研究者随时间改变数据混合比例,从以较简单任务为主的样本开始,逐步过渡到以更困难任务为主的样本。图6提供了课程学习期间数据混合的可视化展示。
选择性压缩。为了进一步提升答案预测的准确性,该方法引入了选择性词元压缩机制。其核心思想是,对于上下文中特别重要的信息块,可以不进行压缩,而是以原始形式保留,从而避免关键信息丢失。
一个强化学习策略被用来决定哪些块应当被保留。该策略以下一段落预测的困惑度作为负向奖励信号进行指导,从而学习识别并保留关键信息。编码器和解码器都经过微调,以适应这种压缩块与未压缩块混合的输入形式。该策略网络利用块嵌入和掩码技术来优化块的扩展顺序,既保留了解码器的自回归特性,又实现了压缩位置的灵活安排。
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213790.html