当前位置:首页 > 科技资讯 > 正文

科技创业公司的“记忆”之战:数据争议与智能体未来

“我真的受够了那些急于求成的科技初创公司,为了讨好风投在数据上撒谎,还贴上‘SOTA’的标签。”有网友在社交媒体上吐槽。

这一切的源头可以追溯到高人气开源智能体记忆项目Mem0在今年4月底发布的一篇论文。论文中,该项目团队提出了一个增强版本的以记忆为核心的架构Mem0,并声称在LOCOMO上打败了所有人,其中,Mem0在“LLM-as-a-Judge”指标上相较于OpenAI提高了26%。(论文地址:https://arxiv.org/abs/2504.19413)

今年8月13日,另一个高人气的智能体记忆框架MemGPT的创始团队Letta AI,其联合创始人兼CTO Sarah Wooders对此公开指控:

几个月前,Mem0发布了MemGPT的基准测试数据,并声称在记忆方面达到了“SOTA”水平。

奇怪的是,我完全不知道他们是怎么跑这个基准测试的。如果不对MemGPT做重大修改,这个测试根本没法完成(他们甚至都没有回应我们关于实验具体运行方式的询问)。

由于arXiv并不是一个经过同行评审的平台,所以近年来公司可以随意发布任何他们想要的‘研究’结果来做市场营销。

我们很轻松就用一些简单的文件系统工具超过了他们的基准数据——这也说明这个基准测试本身并没有太大意义。

“Mem0声称他们在LOCOMO上打败了所有人,但结果发现他们完全把竞争对手的实现搞砸了。然后还用这些糟糕的结果来证明自己的优势。等到Letta和Zep按正确方式跑了基准测试后,两者的得分都比Mem0的最佳成绩高出10%。”网友评价道,“这个行业里的‘空气产品’多到离谱。我理解为了拿到风投,企业会夸大功能,但在科研论文里撒谎实在是可悲。”

两个“顶流”的崛起

Mem0和Letta的诞生都是为了解决大模型的长期记忆问题。

自GPT-4问世以来,大模型一直受限于固定的上下文长度。没有长期记忆,大模型和智能体会面临显著局限:它们会遗忘信息,无法随着时间学习和改进,并且在长时间、复杂的任务中会失去目标。

为此,加州大学伯克利分校(UC Berkeley)的研究团队在2023年提出了一种创新型系统MemGPT,借鉴传统操作系统(OS)的理念,引入了智能体的记忆管理,通过构建记忆层级,让智能体主动管理哪些信息保留在即时上下文(核心记忆)中、哪些存储在外部层(对话记忆、归档记忆和外部文件),以便按需检索。这样,智能体可以在固定的上下文窗口内保持无限的记忆容量。

MemGPT的研究迅速引起了社区关注,MemGPT论文的帖子在Hacker News首页上停留了48小时,开源后已累积17.8k stars。

随着开源项目的推进,团队成立了名为Letta的公司,持续维护MemGPT开源框架,并推动其商业化和工程化落地。原来的MemGPT也升级成了Letta。

这家由伯克利博士生Sarah Wooders和Charles Packer创立的AI初创公司备受期待。Letta获得了由Felicis的Astasia Myers领投的1000万美元种子资金,本轮估值为7000万美元。此外,还得到了人工智能领域一系列天使投资人的支持,其中包括谷歌的Jeff Dean、Hugging Face的Clem Delangue、Runway的Cristóbal Valenzuela和Anyscale的Robert Nishihara等。

如今,许多智能体系统都实现了MemGPT的设计。

Mem0则是由印度工程师Taranjeet Singh和Deshraj Yadav成立,源于他们构建开源检索增强生成(RAG)框架Embedchain的经验,该框架下载量超过200万次。

根据YC的介绍,Singh曾作为首位增长工程师加入Khatabook(YC S18),并迅速晋升为高级产品经理。他的软件工程职业生涯始于Paytm(印度的PayPal),亲历了其迅速崛起成为家喻户晓的品牌。他开发了一款由AI驱动的辅导应用,曾在Google I/O上亮相。他与Deshraj共同创建了EvalAI,这是一个开源的Kaggle替代平台,GitHub上获得了1.6K stars。他还创立了首个GPT应用商店,用户规模突破100万。

Yadav则广泛关注人工智能和机器学习基础设施领域,曾领导特斯拉自动驾驶的AI平台,支持特斯拉全自动驾驶开发中的大规模训练、模型评估、监控和可观测性。在此之前,Deshraj在乔治亚理工学院完成硕士论文时创建了开源机器学习平台EvalAI,并在CVPR、ECCV、AAAI等上发表过论文。

Mem0认为,单纯地扩大模型的上下文窗口只会延缓问题的发生,模型会变得更慢、成本更高,而且仍然会忽略关键细节。团队选择通过一个通用、可扩展的记忆架构来解决问题,Mem0充当了AI应用程序和大模型之间的记忆层,可以动态地从用户对话中提取、整合和检索重要信息。

Mem0提供轻量级的记忆层API和向量检索,开源不到一天就获得了9.7k stars,如今已累积38.2k stars。Netflix、Lemonade和Rocket Money等组织已采用Mem0来增强其AI系统的长期记忆能力。

分歧在哪里?

在4月底的论文中,Mem0团队引入了基于图的记忆表示来增强关系建模能力。

科技创业公司的“记忆”之战:数据争议与智能体未来 Mem0 MemGPT Letta 智能体记忆 第1张

之前,Mem0的提取阶段处理消息和历史上下文以创建新的记忆;更新阶段则将提取出的记忆与相似的现有记忆进行比对,通过工具调用机制执行相应操作。数据库作为核心存储库提供处理所需的上下文并存储更新后的记忆。

引入基于图的记忆后提取阶段利用大模型将对话消息转换为实体和关系三元组;更新阶段在将新信息整合到已有知识图谱时采用冲突检测与解决机制。

在实际实现中Mem0g使用Neo4j作为底层图数据库基于大模型的提取器和更新模块并借助具有函数调用能力的GPT-4o-mini从非结构化文本中进行结构化信息提取。通过将基于图的表示与语义嵌入以及基于大模型的信息提取相结合Mem0获得了复杂推理所需的结构丰富性和自然语言理解所需的语义灵活性。

在LOCOMO基准测试中Mem0表示其持续超越六种领先的记忆方法表现为:响应准确率比OpenAI提升26%延迟比全上下文方法降低91%token使用量节省90%。

科技创业公司的“记忆”之战:数据争议与智能体未来 Mem0 MemGPT Letta 智能体记忆 第2张

下图是不同记忆方法在P50和P95的总响应延迟比较其中包含了模型推理在内的延迟。

科技创业公司的“记忆”之战:数据争议与智能体未来 Mem0 MemGPT Letta 智能体记忆 第3张

Mem0团队认为在AI智能体部署中根据具体推理场景灵活调整记忆结构很重要:

Mem0的稠密记忆管道擅长快速响应、简单查询最大限度减少token消耗与计算开销;而改进后Mem0的结构化图表征能清晰解析复杂关系支持复杂事件排序和丰富上下文整合同时不牺牲实际效率。两者合力构建了一个多功能的记忆工具包能够适应多样的对话需求并具备大规模部署能力。

科技创业公司的“记忆”之战:数据争议与智能体未来 Mem0 MemGPT Letta 智能体记忆 第4张

“有一个记忆工具厂商Mem0发布了有争议的结果声称在LoCoMo上运行了MemGPT。但结果令人困惑因为我们(MemGPT的原团队)无法找到不进行大规模代码重构就将LoCoMo数据灌入MemGPT/Letta的方法。Mem0并未回应我们对其基准测试计算方式的澄清请求也没有提供支持LoCoMo数据回填的修改版MemGPT实现。”Letta表示。

当地时间8月12日Letta发文称Letta在LoCoMo上仅通过将对话历史存储在文件中(而不是使用专门的记忆或检索工具)就达到了74.0%的准确率。这表明:

  • 之前的记忆基准测试可能并不十分有意义;
  • 记忆更多取决于智能体如何管理上下文而不是所使用的具体检索机制。

Letta:能力比工具更重要

“有一个记忆工具厂商Mem0发布了有争议的结果声称在LoCoMo上运行了MemGPT。但结果令人困惑因为我们(MemGPT的原团队)无法找到不进行大规模代码重构就将LoCoMo数据灌入MemGPT/Letta的方法。”Letta表示。

“我们好奇如果只是把LoCoMo的对话历史放进一个文件而不使用任何专用记忆工具Letta的表现会如何。”

  • “这个简单的智能体在GPT-4o mini和最少提示调优的情况下就在LoCoMo上取得了74.0%的成绩明显高于Mem0报告的其最佳图记忆版本的68.5%。”

“能力比工具更重要”