近期,谷歌的 Nested Learning 技术在人工智能界引发了一场关于“模型记忆”的深度讨论。它让人们意识到,大语言模型不应仅仅是训练完成后便处于只读状态的“静态权重库”,而应在推理过程中具备动态演化的能力。
在 Nested Learning 架构下,当模型接收到新的上下文信息时,不再只是单纯地将文本存入注意力机制的 KV 缓存中,而是允许模型在推理过程中微调自身参数,将新信息直接内化为内部记忆的一部分。
然而,就在业界还在消化这一范式转变时,英伟达(NVIDIA)在2025年12月28日发布了一篇更为激进的研究论文——《End-to-End Test-Time Training for Long Context》(TTT-E2E)。如果说谷歌的路线是在努力通过增强结构来“保存”记忆,那么英伟达的研究者则提出了一个更具颠覆性的观点:记忆的本质就是学习,“记住”的过程应当等同于“继续训练”。
这种理念非常接近人类的认知模式:我们或许无法背诵小学课本的每一个字句,但那些经典篇章所传达的情感与逻辑,早已通过学习深深塑造了我们的价值观和思维方式。英伟达与斯坦福大学的研究者们坚信,AI 亦应如此进化。
追溯技术史,推理时训练(TTT, Test-Time Training)并非空穴来风。早在2013年,Mikolov 等人就尝试过在语言模型中应用动态评估(Dynamic Evaluation),即在测试阶段让模型解除冻结,利用交叉熵损失(CE)进行微调。这意味着在推理阶段调整参数不仅符合语言建模的本质逻辑,更能在实际表现中带来显著收益。
过去十年,Transformer 的统治力源于其强大的注意力机制,但它需要将读过的每个词制成索引(KV Cache)。随着上下文增长,这种“精准翻书”的成本变得难以承受。而 TTT 方案的突破点在于,它直接通过“参数内化”知识来解决上下文处理问题。无论输入多长,其推理状态的大小和计算增量始终保持恒定,从而实现了零延迟增长的长文本处理。
尽管动态评估理念超前,但早期工程化落地的鸿沟在于“训练与推理的不对齐”。模型在推理时无约束地更新极易导致“灾难性遗忘”或“参数漂移”。而英伟达提出的 TTT-E2E 则采用了端到端的模式,将测试时的更新目标直接设定为下一词预测的交叉熵(CE)。当损失函数与最终任务完美契合,模型在上下文中学到的任何规律都能最直接地优化后续预测。
为了验证这一点,研究人员构建了一个极端的“玩具模型”:移除所有自注意力层,仅保留多层感知机(MLP)。在这种配置下,模型本应是“局部失忆”的,但通过在读取上下文时不断进行“预测-纠正-调整”的梯度更新,该模型竟然展现出了媲美全注意力 Transformer 的长程记忆能力。这意味着,纯粹通过修改 MLP 权重,就能完美编码并利用上下文信息。
为了解决传统动态评估的波动问题,TTT-E2E 引入了元学习(Meta-Learning)体系。英伟达的研究者认为,必须在预训练阶段就教会模型“如何在推理时学习”。
通过双循环嵌套结构,TTT-E2E 实现了自我进化:内循环负责在处理当前文本时进行快速梯度适应,而外循环则负责优化这种“学习能力”,确保模型在微调时不会偏离预定轨道。这种“学会学习”的机制,为推理阶段的参数更新设立了天然的防御护栏。
此外,TTT-E2E 还设置了双重安全阀:微批次处理(Mini-batching)与滑动窗口注意力,以及选择性层冻结。通过仅更新最后 1/4 的 MLP 块,并保留一套静态权重以维护基础语言能力,TTT-E2E 在吸收新知识的同时,有效规避了对既有常识的抹除。这种“结构化隔离”让模型在灵活适应与稳定性之间达到了精妙的平衡。
在 64K 乃至 128K 的长上下文测试中,TTT-E2E 的优势愈发凸显。当 Mamba 2 或传统线性模型在长序列下性能开始出现稀释时,TTT-E2E 的 Loss 曲线始终保持稳定下降。这证明了该架构并非简单的“记忆”,而是真正实现了“越学越聪明”。
在算力成本方面,由于 TTT-E2E 摆脱了注意力机制的二次方复杂度,其在 128K 长度下的 Prefill 速度比全注意力模型快了近 2.7 倍。它不是靠死记硬背旧内容,而是通过不断的梯度修正,让模型状态自发地向更准确的预测区域靠拢。
尽管在极高精度的检索任务(如“海底捞针”)上,全注意力模型仍具优势,但 TTT-E2E 在长文理解、逻辑连贯性及风格控制等任务中表现卓越。它代表了记忆的另一种未来:将海量信息压缩进模型参数,用学习的深度换取处理的广度。
TTT-E2E 的核心意义在于,它将记忆重新定义为“让过去改变未来”。在注意力机制逐渐触及物理极限的今天,这种“边读边学”的路线,为模型在超长上下文中的持续成长提供了一种具备工业可行性的工程方案。
它不一定在所有领域都无往不利,但它确实更贴近我们对“智能”的本质期待:不求复刻每一个细节,但求从每一段经历中,学会变得更加睿智。
本文由主机测评网于2026-04-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260432970.html