在技术快速迭代的当下,每隔一段时间就会涌现“XX已死”的讨论。从“搜索已死”、“Prompt已死”到如今“RAG已死”,这类论调持续不断。
向量数据库Chroma创始人兼CEO Jeff Huber在播客中提出“RAG已死,上下文工程当立”,主张以上下文工程框架替代对RAG术语的狭义依赖。
对于众多AI应用开发者,RAG并不陌生。自2022年以来,为解决LLM输入长度限制(如GPT-3.5的4K tokens),RAG作为一种“外挂”知识库方案,迅速成为行业标准。
其核心逻辑类似搜索引擎:将文档切分为小块,通过向量嵌入和相似度搜索,找到与用户问题最相关的片段,再馈送给LLM生成答案。
作为近几年最热门的LLM应用范式之一,RAG正经历生存危机。长上下文窗口的崛起和Agent能力的进化,正在动摇其核心地位。
那么,RAG真的过时了吗?我们从三篇代表性文章中,梳理了业界对RAG“生死问题”的不同回答。
来自RAG基础设施巨头LlamaIndex的这篇文章提供演进视角。它不认为RAG被替代,而是正经历演进阶段,其中AI智能体成为全新、更强大的RAG架构核心。
文章指出,RAG技术已超越早期“朴素区块检索”阶段,进入以“Agentic策略”为核心的新时代。现代AI工程师需掌握混合搜索、CRAG、Self-RAG等复杂数据检索技术。
作者以LlamaCloud检索服务为例,系统性展示如何从基础RAG逐步构建能智能查询多个知识库、完全由agent驱动的高级检索系统。
这是RAG技术起点。其工作原理如下:
作者还提及,在LlamaCloud实现中,除了默认区块检索(chunk模式),还提供两种额外文件级检索模式:
在实际应用中,系统通常无法预知用户会提出哪种类型问题。为此,作者介绍名为“自动路由”(auto_routed)的检索模式。
该模式本质是轻量级agent系统。它会首先分析用户查询,然后智能判断应采用上述三种模式(chunk、files_via_metadata或files_via_content)中哪一种执行检索。这实现了在单一知识库内检索策略自动化。
当系统需处理多种不同格式文档时(如财报PDF、会议PPT、客服记录等),将它们全放在一个索引并用相同解析规则处理低效。更优做法是为每种类型文档创建独立、高度优化的索引。
为能同时查询这些分散知识库,作者介绍“复合检索API”。其核心功能是:
作者最终目标是将上述技术整合,构建在每个环节都由agent进行智能决策、完全自动化检索系统。这个系统运作流程形成双层agent架构:
例如,当查询“2024年第四季度财报中的收入增长情况如何?”时,顶层agent会识别出“财报”关键词,并将查询路由至financial_index。
例如,对于上述查询,子索引agent可能会判断这是针对特定信息问题,从而选择chunk模式进行精确区块检索。
通过这种分层agent方法,系统能以高度动态和智能化方式响应复杂多样用户查询,在正确时间、从正确知识库、用正确方式获取最精准上下文。
作者总结道,简单RAG已经过时,智能体驱动检索才是未来。高级检索服务通过这种分层、智能能力,充当着高级AI智能体不可或缺“知识骨干”。
这篇博客主要作者是资深机器学习工程师、曾就职于GitHub和Airbnb等知名企业的Hamel Husain。
文章包含6个部分,作者邀请多位专家共同系统性探讨为什么RAG不仅没死,反而正以前所未有重要性,进化为构建可靠、高效AI应用的核心工程学科。
Ben Clavié(RAGatouille作者)和Nandan Thakur(BEIR、FreshStack基准测试设计者)首先澄清核心误解。
Clavié指出,将所有信息塞入长上下文窗口在经济和效率上都不切实际。RAG本质(为语言模型提供其训练时未见外部知识)是永恒需求。
我们告别只是幼稚单向量语义搜索,正如用CSS升级HTML,我们正用更先进检索技术升级RAG。
Thakur则颠覆传统评估体系。他认为,像BEIR这类为传统搜索引擎设计基准,其目标是“找到排名第一正确答案”,这与RAG目标不符。
RAG系统检索目标应该是:
为此,他设计FreshStack基准,为衡量现代RAG系统真实性能提供新标尺。
Orion Weller(约翰霍普金斯大学)和Antoine Chaffin(LightOn)介绍两种突破性检索模型范式,它们让检索器本身具备“思考”能力。
Weller研究将大模型指令遵循和推理能力直接嵌入检索过程。他展示两个模型:
Chaffin则直指单向量检索核心缺陷——信息压缩损失。他介绍“延迟交互”模型(如ColBERT),这种模型不将整个文档压缩成一个向量,而是保留每个token向量表示。
这使得一个仅有150M参数小模型,在推理密集型任务上表现甚至超过7B参数大模型。同时,PyLate等开源库出现,正让这种强大技术变得前所未有易于使用。
Part 5 & 6: 架构的进化:从单一地图到智能路由与上下文工程
最后两部分由Bryan Bischof和Ayush Chaurasia,以及Chroma公司Kelly Hong,将视角从模型本身拉升到系统架构和工程实践。
Bischof和Chaurasia提出,我们不应再寻找那个“完美”嵌入模型或表示方法。正确做法是,为同一份数据创建多种表示,就像为同一个地方准备多张不同功能地图(如地形图、交通图)。
然后,利用一个智能“路由器”(通常是一个LLM Agent)来理解用户意图,并将其导向最合适“地图”进行查询。他们“语义点彩艺术”应用生动展示这种架构灵活性和强大效果。
Kelly Hong研究则为“长上下文万能论”敲响警钟。她提出“上下文腐烂”现象:随着输入上下文增长,尤其在存在模糊信息和“干扰项”时,大模型性能会显著下降,甚至在简单任务上也变得不可靠。这证明精巧上下文工程和精准检索比简单粗暴填充上下文窗口更为重要。
这篇文章作者是Fintool创始人Nicolas Bustamante,他拥有十年法律和金融搜索平台构建经验,直言整个RAG架构正成为不必要、臃肿历史包袱。
作者指出RAG架构从根基上就存在难以克服“原罪”:
作者认为,智能体(Agent)和LLM长上下文窗口这两项技术进步将直接“杀死”RAG。
作者“顿悟时刻”来源于Anthropic发布Claude Code。他发现这个编码助手在没有使用任何RAG情况下,表现远超传统方法。
其秘诀在于放弃复杂索引管道,回归最原始但极其高效工具:grep(文本搜索)和glob(文件模式匹配)。
这种“智能体搜索”范式工作方式是“调查”而非“检索”:
作者结论并非要彻底消灭RAG,而是将其“降级”。在新范式下,RAG不再是系统核心架构,而仅仅是Agent工具箱中一个选项。
在面对海量文档需要初步筛选时,Agent可能会先用混合搜索(RAG核心)进行一次粗筛,然后将排名靠前几份完整文档加载到上下文中,进行深度分析和推理。
综合这三种观点,我们可以得出清晰结论:初级、朴素RAG(Naive RAG)确实已经“死亡”。那种简单“切块-向量化-相似度搜索”流程,已无法满足日益复杂AI应用需求。
然而,RAG本身所代表核心思想——为LLM提供精准、可靠外部知识——需求是永恒的。
未来图景更可能是:
对于开发者,关键在于理解不同技术范式优劣,并根据具体应用场景,灵活将它们组合成最高效、最可靠解决方案。
更多细节请参看原博客。
本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116586.html