当前位置：首页 > 科技资讯 > 正文

REFRAG：优化大上下文处理，解锁LLM新潜力

在经历了一系列的挑战与变革后，扎克伯格的投资终于迎来了初步的成果。

REFRAG：优化大上下文处理，解锁LLM新潜力 REFRAG LLM 效率瓶颈长上下文处理第1张

近期，Meta Superintelligence Labs联合推出了一种名为REFRAG的高效解码框架，旨在解决LLM在处理长上下文输入时遇到的效率问题，特别是在RAG等应用场景中。

REFRAG：优化大上下文处理，解锁LLM新潜力 REFRAG LLM 效率瓶颈长上下文处理第2张

论文标题：REFRAG：Rethinking RAG based Decoding

为何长上下文处理如此棘手？

在当前的AI应用中，利用LLM处理包含大量外部知识的长文本输入，是提升问答、对话和智能体应用能力的关键。然而，这一过程也带来了严峻的挑战：在传统LLM中，注意力机制的计算和内存开销会随着输入长度的平方（N²）增长。

这意味着文本长度翻一倍，速度可能会慢4倍，这会导致显著的系统延迟，并消耗大量内存用于存储KV Cache，进而降低系统吞吐量。这使得开发者不得不在知识丰富度与系统效率之间做出痛苦的权衡。

Meta的研究指出，在RAG应用中，LLM处理的上下文中包含了大量从外部知识库检索拼接而成的段落，但其中只有一小部分与用户查询紧密相关。这些不相关的段落导致了计算资源的浪费。REFRAG的核心思想正是基于这一观察，通过识别并跳过对这些非相关上下文的无效计算，来优化解码过程。

REFRAG如何解决问题？

REFRAG框架通过一个精巧的四步流程，利用注意力稀疏结构，实现了显著的性能提升。它与传统RAG的关键差异在于，它避免了让LLM直接处理冗长的原始文本。

压缩：首先，一个轻量级的编码器会读取检索到的文档，将每16个token压缩成一个浓缩了语义精华的「块向量」。
缩短：接下来，主模型不再读取原始的token，而是直接处理这些块向量。输入序列的长度因此立刻缩短了16倍。
加速：由于输入变得极短，注意力机制的计算开销大幅降低，同时作为显存消耗大头的KV cache也变得更小。这正是其能实现惊人速度提升的根本原因。
选择：为了防止在压缩过程中丢失关键信息，框架引入了一个基于RL的策略充当「质检员」，它能智能地挑出信息密度最高、与任务最相关的关键片段，确保它们不被压缩，从而保留核心信息。

Meta表示，该框架的有效性已在包括RAG、多轮对话和长文档摘要在内的多种长上下文任务中得到验证，取得了突破性的成果：

速度提升：将首个token生成时间（TTFT）加速高达30.8倍。在16k tokens的场景下，相比CEPE等基线方法，实现了超过16倍的TTFT加速。从性能图表可以看出，文本越长，REFRAG的优势越明显，其加速效果随上下文规模增加呈指数级提升，而基线方法仅为线性增长。

REFRAG：优化大上下文处理，解锁LLM新潜力 REFRAG LLM 效率瓶颈长上下文处理第3张

上下文扩展：能够将现有LLM的有效上下文大小扩展16倍，使其能处理更海量的信息。
精度不降反升：在大幅提升速度和扩展上下文的同时，做到了模型的准确率没有损失。更关键的是，在GSM8K基准测试上，REFRAG不仅能处理8倍更长的上下文（80个chunk vs 10个chunk），运行速度还提升了一倍，最终成绩更是几乎翻倍，从6.71提升到12.08。

REFRAG：优化大上下文处理，解锁LLM新潜力 REFRAG LLM 效率瓶颈长上下文处理第4张