当前位置:首页 > 科技资讯 > 正文

Meta实验室革新RAG:REFRAG框架引领高效解码新时代

Meta超级智能实验室最新成果——REFRAG高效解码框架横空出世,重新定义RAG(检索增强生成)界限,首字生成延迟(TTFT)最高可加速30倍。

Meta实验室革新RAG:REFRAG框架引领高效解码新时代 REFRAG RAG 解码框架 效率提升 第1张

作为超级智能实验的“先锋之作”,REFRAG一经问世,便在网上引发广泛热议。

Meta实验室革新RAG:REFRAG框架引领高效解码新时代 REFRAG RAG 解码框架 效率提升 第2张

例如,Reddti网友表示:

若效果真如研究所说的那样,那对RAG来说无疑是巨大的进步,在保持准确性的同时,能显著提升速度和上下文处理范围。

Meta实验室革新RAG:REFRAG框架引领高效解码新时代 REFRAG RAG 解码框架 效率提升 第3张

RAG的上下文计算冗余问题终得解决

首先,我们需要理解并回顾一下RAG的工作原理。

当大型语言模型(LLM)遇到需要精确背景知识的问题时,若仅依赖其内部知识,可能会出现事实性错误或信息滞后。而RAG通过外部知识库检索相关信息,与问题一同提供给LLM,从而生成更可靠、更及时的答案。

然而,这种模式也带来了挑战,即推理效率与信息量的平衡。当AI检索到的参考资料过多时,LLM的处理负担会大幅增加,导致生成第一个字的延迟(TTFT)显著增加,影响用户体验。

Meta实验室革新RAG:REFRAG框架引领高效解码新时代 REFRAG RAG 解码框架 效率提升 第4张

Meta超级智能实验室的研究人员发现,在RAG应用中,LLM处理检索到的多个文档时,其计算过程存在大量冗余。通过实验,他们观察到模型内部的注意力机制在处理这些文档时,呈现出一种“块对角”(block-diagonal)的稀疏模式。

基于这一观察,研究团队提出:RAG解码过程中的大部分注意力计算对最终结果贡献有限,可以在不显著影响性能的前提下进行优化或移除。

REFRAG:一种创新的选择性压缩解码方案

REFRAG框架通过“压缩(Compress)、感知(Sense)、扩展(Expand)”的流程,优化了LLM处理外部知识的方式。

Meta实验室革新RAG:REFRAG框架引领高效解码新时代 REFRAG RAG 解码框架 效率提升 第5张

压缩:将上下文转换为紧凑表征

REFRAG改变了上下文的呈现方式,引入轻量级编码器模型将长篇参考资料切分为多个“块”,并为每个“块”生成紧凑的向量表示——“块嵌入”。这一步骤显著缩短输入序列长度,并允许系统直接调用缓存的嵌入以节省计算资源。

感知:智能判断关键信息

考虑到并非所有信息都适合压缩,REFRAG训练了一个基于强化学习(RL)的策略网络来判断哪些文本块包含最核心的信息。

扩展:结合压缩与原始文本

最终输入到主LLM的是一个混合序列,包含大部分上下文的“块嵌入”和少量被判断为关键的“原始文本块”。LLM基于这份优化的输入材料生成答案,从而保留关键信息并最大限度地降低计算负载。

性能卓越,效率倍增

根据论文数据,REFRAG在多个维度上取得了显著成果。例如,在推理速度方面,REFRAG实现了最高30.85倍的加速,与之前的先进方法相比也取得了3.75倍的提升。

Meta实验室革新RAG:REFRAG框架引领高效解码新时代 REFRAG RAG 解码框架 效率提升 第6张

此外,实验还表明REFRAG在困惑度以及多种下游任务的准确率上与使用完整上下文的基线模型相比没有性能损失。由于压缩技术使得模型能在同等计算预算下处理更多信息,上下文窗口等效扩大了16倍

总而言之,Meta超级智能实验室的这项研究通过巧妙算法设计解决了大模型处理长上下文时的核心效率问题。REFRAG为开发更高效、更经济、更具扩展性的AI应用提供了重要解决方案。