当前位置：首页 > 科技资讯 > 正文

英伟达TTT-E2E：用“持续学习”取代“注意力记忆”，开启长文本推理新范式

主机测评网
科技资讯
2026-04-02
839

近期，谷歌的 Nested Learning 技术在人工智能界引发了一场关于“模型记忆”的深度讨论。它让人们意识到，大语言模型不应仅仅是训练完成后便处于只读状态的“静态权重库”，而应在推理过程中具备动态演化的能力。

在 Nested Learning 架构下，当模型接收到新的上下文信息时，不再只是单纯地将文本存入注意力机制的 KV 缓存中，而是允许模型在推理过程中微调自身参数，将新信息直接内化为内部记忆的一部分。

然而，就在业界还在消化这一范式转变时，英伟达（NVIDIA）在2025年12月28日发布了一篇更为激进的研究论文——《End-to-End Test-Time Training for Long Context》（TTT-E2E）。如果说谷歌的路线是在努力通过增强结构来“保存”记忆，那么英伟达的研究者则提出了一个更具颠覆性的观点：记忆的本质就是学习，“记住”的过程应当等同于“继续训练”。

英伟达TTT-E2E：用“持续学习”取代“注意力记忆”，开启长文本推理新范式 TTT-E2E 动态评估长上下文推理时训练第1张

这种理念非常接近人类的认知模式：我们或许无法背诵小学课本的每一个字句，但那些经典篇章所传达的情感与逻辑，早已通过学习深深塑造了我们的价值观和思维方式。英伟达与斯坦福大学的研究者们坚信，AI 亦应如此进化。

01 范式转移：用内化权重取代检索式注意力

追溯技术史，推理时训练（TTT, Test-Time Training）并非空穴来风。早在2013年，Mikolov 等人就尝试过在语言模型中应用动态评估（Dynamic Evaluation），即在测试阶段让模型解除冻结，利用交叉熵损失（CE）进行微调。这意味着在推理阶段调整参数不仅符合语言建模的本质逻辑，更能在实际表现中带来显著收益。

英伟达TTT-E2E：用“持续学习”取代“注意力记忆”，开启长文本推理新范式 TTT-E2E 动态评估长上下文推理时训练第2张

过去十年，Transformer 的统治力源于其强大的注意力机制，但它需要将读过的每个词制成索引（KV Cache）。随着上下文增长，这种“精准翻书”的成本变得难以承受。而 TTT 方案的突破点在于，它直接通过“参数内化”知识来解决上下文处理问题。无论输入多长，其推理状态的大小和计算增量始终保持恒定，从而实现了零延迟增长的长文本处理。

英伟达TTT-E2E：用“持续学习”取代“注意力记忆”，开启长文本推理新范式 TTT-E2E 动态评估长上下文推理时训练第3张

尽管动态评估理念超前，但早期工程化落地的鸿沟在于“训练与推理的不对齐”。模型在推理时无约束地更新极易导致“灾难性遗忘”或“参数漂移”。而英伟达提出的 TTT-E2E 则采用了端到端的模式，将测试时的更新目标直接设定为下一词预测的交叉熵（CE）。当损失函数与最终任务完美契合，模型在上下文中学到的任何规律都能最直接地优化后续预测。

英伟达TTT-E2E：用“持续学习”取代“注意力记忆”，开启长文本推理新范式 TTT-E2E 动态评估长上下文推理时训练第4张

为了验证这一点，研究人员构建了一个极端的“玩具模型”：移除所有自注意力层，仅保留多层感知机（MLP）。在这种配置下，模型本应是“局部失忆”的，但通过在读取上下文时不断进行“预测-纠正-调整”的梯度更新，该模型竟然展现出了媲美全注意力 Transformer 的长程记忆能力。这意味着，纯粹通过修改 MLP 权重，就能完美编码并利用上下文信息。

英伟达TTT-E2E：用“持续学习”取代“注意力记忆”，开启长文本推理新范式 TTT-E2E 动态评估长上下文推理时训练第5张

02 元学习护航：确保工程实现的稳定性

为了解决传统动态评估的波动问题，TTT-E2E 引入了元学习（Meta-Learning）体系。英伟达的研究者认为，必须在预训练阶段就教会模型“如何在推理时学习”。

通过双循环嵌套结构，TTT-E2E 实现了自我进化：内循环负责在处理当前文本时进行快速梯度适应，而外循环则负责优化这种“学习能力”，确保模型在微调时不会偏离预定轨道。这种“学会学习”的机制，为推理阶段的参数更新设立了天然的防御护栏。

英伟达TTT-E2E：用“持续学习”取代“注意力记忆”，开启长文本推理新范式 TTT-E2E 动态评估长上下文推理时训练第6张

此外，TTT-E2E 还设置了双重安全阀：微批次处理（Mini-batching）与滑动窗口注意力，以及选择性层冻结。通过仅更新最后 1/4 的 MLP 块，并保留一套静态权重以维护基础语言能力，TTT-E2E 在吸收新知识的同时，有效规避了对既有常识的抹除。这种“结构化隔离”让模型在灵活适应与稳定性之间达到了精妙的平衡。