当前位置:首页 > 科技资讯 > 正文

REFRAG:优化大上下文处理,解锁LLM新潜力

在经历了一系列的挑战与变革后,扎克伯格的投资终于迎来了初步的成果。

REFRAG:优化大上下文处理,解锁LLM新潜力 REFRAG LLM 效率瓶颈 长上下文处理 第1张

近期,Meta Superintelligence Labs联合推出了一种名为REFRAG的高效解码框架,旨在解决LLM在处理长上下文输入时遇到的效率问题,特别是在RAG等应用场景中。

REFRAG:优化大上下文处理,解锁LLM新潜力 REFRAG LLM 效率瓶颈 长上下文处理 第2张

论文标题:REFRAG:Rethinking RAG based Decoding

论文地址:https://arxiv.org/abs/2509.01092

为何长上下文处理如此棘手?

在当前的AI应用中,利用LLM处理包含大量外部知识的长文本输入,是提升问答、对话和智能体应用能力的关键。然而,这一过程也带来了严峻的挑战:在传统LLM中,注意力机制的计算和内存开销会随着输入长度的平方(N²)增长。

这意味着文本长度翻一倍,速度可能会慢4倍,这会导致显著的系统延迟,并消耗大量内存用于存储KV Cache,进而降低系统吞吐量。这使得开发者不得不在知识丰富度与系统效率之间做出痛苦的权衡。

Meta的研究指出,在RAG应用中,LLM处理的上下文中包含了大量从外部知识库检索拼接而成的段落,但其中只有一小部分与用户查询紧密相关。这些不相关的段落导致了计算资源的浪费。REFRAG的核心思想正是基于这一观察,通过识别并跳过对这些非相关上下文的无效计算,来优化解码过程。

REFRAG如何解决问题?

REFRAG框架通过一个精巧的四步流程,利用注意力稀疏结构,实现了显著的性能提升。它与传统RAG的关键差异在于,它避免了让LLM直接处理冗长的原始文本。

  • 压缩:首先,一个轻量级的编码器会读取检索到的文档,将每16个token压缩成一个浓缩了语义精华的「块向量」。
  • 缩短:接下来,主模型不再读取原始的token,而是直接处理这些块向量。输入序列的长度因此立刻缩短了16倍。
  • 加速:由于输入变得极短,注意力机制的计算开销大幅降低,同时作为显存消耗大头的KV cache也变得更小。这正是其能实现惊人速度提升的根本原因。
  • 选择:为了防止在压缩过程中丢失关键信息,框架引入了一个基于RL的策略充当「质检员」,它能智能地挑出信息密度最高、与任务最相关的关键片段,确保它们不被压缩,从而保留核心信息。

Meta表示,该框架的有效性已在包括RAG、多轮对话和长文档摘要在内的多种长上下文任务中得到验证,取得了突破性的成果:

  • 速度提升:将首个token生成时间(TTFT)加速高达30.8倍。在16k tokens的场景下,相比CEPE等基线方法,实现了超过16倍的TTFT加速。从性能图表可以看出,文本越长,REFRAG的优势越明显,其加速效果随上下文规模增加呈指数级提升,而基线方法仅为线性增长。

REFRAG:优化大上下文处理,解锁LLM新潜力 REFRAG LLM 效率瓶颈 长上下文处理 第3张

  • 上下文扩展:能够将现有LLM的有效上下文大小扩展16倍,使其能处理更海量的信息。
  • 精度不降反升:在大幅提升速度和扩展上下文的同时,做到了模型的准确率没有损失。更关键的是,在GSM8K基准测试上,REFRAG不仅能处理8倍更长的上下文(80个chunk vs 10个chunk),运行速度还提升了一倍,最终成绩更是几乎翻倍,从6.71提升到12.08。

REFRAG:优化大上下文处理,解锁LLM新潜力 REFRAG LLM 效率瓶颈 长上下文处理 第4张

简而言之,REFRAG让「大上下文RAG」从理想变成了现实。

虽然其效果听起来非常不错,但评论区也表示,它最终的价值仍需要在更广泛的实际应用场景中进行检验。

REFRAG:优化大上下文处理,解锁LLM新潜力 REFRAG LLM 效率瓶颈 长上下文处理 第5张

还有人对该研究中的RL策略提出了质疑。

REFRAG:优化大上下文处理,解锁LLM新潜力 REFRAG LLM 效率瓶颈 长上下文处理 第6张

方法

为实现编码器与解码器的有效对齐,本研究遵循Yen et al. (2024)的工作,采用了一种基于「下一段落预测」任务的持续预训练方法。

在训练中,每个数据点包含总计s+o=T个词元(token)。通过这一预训练过程,模型能够学习如何利用块嵌入(chunk embeddings)来高效执行下游任务。

为了进一步提升模型性能,该方法还引入了通过RL实现的选择性压缩机制。在完成CPT对齐后,模型会经过监督微调 ,以适应具体的下游应用场景,例如RAG和多轮对话。

...(此处省略了部分详细解释内容)...