当前位置:首页 > 科技资讯 > 正文

大模型记忆与长上下文:突破限制的新路径

尽管大模型拥有惊人的能力,但在「记忆」方面仍存在挑战。现代大型语言模型(LLM)的上下文窗口普遍有限,而「记忆」需要有效的管理。

众所周知,大多数LLM的上下文窗口容量有限,例如早期的GPT-3只能处理约2,048个token。尽管一些新模型如Meta的Llama 4 Scout号称能处理高达1,000万token,但这对许多应用来说仍不够。

大模型记忆与长上下文:突破限制的新路径 大模型记忆 长上下文处理 LLM 记忆系统 第1张

注意:这里的token数量是近似最大值。「GPT-4.1」指的是2025年4月更新的GPT-4,「Scout」是专为长上下文设计的17B参数Llama 4变体。

LLM存在内在的「记忆缺陷」,即上下文窗口有限,这限制了它们在多轮次、多会话交互中的一致性。因此,现代LLM难以维持长期记忆,这对许多应用来说是个大问题,因为记忆是实现反思和规划的关键。

大模型记忆与长上下文:突破限制的新路径 大模型记忆 长上下文处理 LLM 记忆系统 第2张

近期,关于大模型记忆的研究逐渐增多,例如开源的MemOS就引起了广泛关注。

与传统RAG或纯参数存储不同,MemOS将「记忆」视为与算力同等重要的系统资源。它持续更新管理大模型的长期记忆,将明文、激活状态和参数记忆统一调度、融合、归档和权限管理,使大模型具备持续进化和自我更新的能力。

大模型记忆与长上下文处理能力密不可分

强大的大模型能处理大量token,甚至达到千万级别,这些都属于LLM的长上下文处理能力。实际使用经验表明,具有强大长上下文处理能力的LLM通常也具备更强的记忆能力。

长上下文(Long Context)

  • 指模型在当前推理过程中能「看到」的历史文本长度。
  • 本质上是一次性输入到模型中的序列长度。
  • 用于解决如文档问答、多轮对话、代码分析等需要上下文保持的任务。

「长上下文处理能力」包括:

长度泛化能力:在未见过的更长的序列上进行外推的能力。

高效注意力能力:减少长序列计算/内存消耗的机制。

信息保留能力:指模型实际利用远距信息的能力。

提示词与利用能力:设计提示词以最大限度发挥长上下文优势。

记忆(Memory)

  • 指模型跨多轮对话/使用所保留的信息。
  • 是一种持久化机制,记录用户、对话、偏好等信息。

SwirlAI创始人兼CEO Aurimas Griciūnas认为,可将LLM的记忆分为以下类型:

大模型记忆与长上下文:突破限制的新路径 大模型记忆 长上下文处理 LLM 记忆系统 第3张

  1. 事件记忆:包含代理过去的交互和执行的操作。
  2. 语义记忆:包括可访问的外部知识信息及其对自身状态和能力的理解。
  3. 程序性记忆:与系统运行机制相关的结构性信息。
  4. 在特定任务场景下,代理系统根据需求从长期记忆中调取相关信息,并暂存于本地缓存。
  5. 从长期记忆中调取的信息与当前局部缓存的信息共同构成代理的工作记忆(也称短期记忆

大模型记忆与长上下文:突破限制的新路径 大模型记忆 长上下文处理 LLM 记忆系统 第4张

实现LLM记忆的几种方法

长上下文的方法

当对话内容超出上下文长度时,LLM可能会出现忘记用户喜好、重复提问等现象。提高LLM记忆能力最直接的方法是提升长上下文处理能力。目前的方法包括:

  1. RAG(检索增强生成)
  2. 分层摘要
  3. 滑动窗口推理

大模型记忆与长上下文:突破限制的新路径 大模型记忆 长上下文处理 LLM 记忆系统 第5张

记忆的方法

尽管上下文能力与大模型记忆紧密相关,但上下文窗口并不能直接等价于记忆。

固定记忆池

一类方法采用外部编码器将知识注入到记忆池中,例如Memory Network。另一类方法则直接使用语言模型本身作为编码器来更新记忆。

\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n