尽管大模型拥有惊人的能力,但在「记忆」方面仍存在挑战。现代大型语言模型(LLM)的上下文窗口普遍有限,而「记忆」需要有效的管理。
众所周知,大多数LLM的上下文窗口容量有限,例如早期的GPT-3只能处理约2,048个token。尽管一些新模型如Meta的Llama 4 Scout号称能处理高达1,000万token,但这对许多应用来说仍不够。
注意:这里的token数量是近似最大值。「GPT-4.1」指的是2025年4月更新的GPT-4,「Scout」是专为长上下文设计的17B参数Llama 4变体。
LLM存在内在的「记忆缺陷」,即上下文窗口有限,这限制了它们在多轮次、多会话交互中的一致性。因此,现代LLM难以维持长期记忆,这对许多应用来说是个大问题,因为记忆是实现反思和规划的关键。
近期,关于大模型记忆的研究逐渐增多,例如开源的MemOS就引起了广泛关注。
与传统RAG或纯参数存储不同,MemOS将「记忆」视为与算力同等重要的系统资源。它持续更新管理大模型的长期记忆,将明文、激活状态和参数记忆统一调度、融合、归档和权限管理,使大模型具备持续进化和自我更新的能力。
强大的大模型能处理大量token,甚至达到千万级别,这些都属于LLM的长上下文处理能力。实际使用经验表明,具有强大长上下文处理能力的LLM通常也具备更强的记忆能力。
长上下文(Long Context)
「长上下文处理能力」包括:
长度泛化能力:在未见过的更长的序列上进行外推的能力。
高效注意力能力:减少长序列计算/内存消耗的机制。
信息保留能力:指模型实际利用远距信息的能力。
提示词与利用能力:设计提示词以最大限度发挥长上下文优势。
记忆(Memory)
SwirlAI创始人兼CEO Aurimas Griciūnas认为,可将LLM的记忆分为以下类型:
长上下文的方法
当对话内容超出上下文长度时,LLM可能会出现忘记用户喜好、重复提问等现象。提高LLM记忆能力最直接的方法是提升长上下文处理能力。目前的方法包括:
记忆的方法
尽管上下文能力与大模型记忆紧密相关,但上下文窗口并不能直接等价于记忆。
固定记忆池
一类方法采用外部编码器将知识注入到记忆池中,例如Memory Network。另一类方法则直接使用语言模型本身作为编码器来更新记忆。
\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437200.html