大型语言模型(LLM)的持续学习领域近日迎来突破性进展!
来自斯坦福大学、英伟达(NVIDIA)等全球顶级科研机构的最新研究,针对当前开放式科学难题的破解,提出了一种极具颠覆性的新范式——
Test-Time Training to Discover (TTT-Discover)。
该技术依托开源模型 gpt-oss-120b,在数学、生物、算法等多个关键领域刷新了 SOTA 纪录,其综合表现甚至超越了顶尖人类专家以及主流闭源前沿大模型。
与传统的“测试时缩放”(Test-time Scaling)方案不同,TTT-Discover 并不满足于仅通过 Prompt 调度来调用冻结权重的模型。
它创新的核心在于:在测试阶段,针对每一个具体的问题,引入强化学习(RL)机制对模型的权重进行实时动态更新。
这种“测试时训练”机制使模型能够从解决特定问题的失败尝试中获取反馈经验,并据此优化参数,最终实现模型能力的定向进化与自我突破。
具体科研成果包括:
数学领域:成功推导出了 Erdős 最小重叠问题的新界限,并提出了一条全新的自相关不等式。
Kernel 工程:在 GPUMode 性能竞赛中,其执行效率比顶级人类工程师快 2 倍。
算法挑战:在历届 AtCoder 编程竞赛题目中斩获历史最高分。
生物科学:在复杂的单细胞 RNA-seq 数据去噪任务上达到了 SOTA 水平。
本质上,这篇论文探讨的是如何在测试环节融入强化学习(Reinforcement Learning at Test Time),其核心逻辑体现在以下两个维度:
1. 学习目标(Learning Objective)的重塑
传统的强化学习往往追求提升所有任务的“平均收益”以保证泛化性,但 TTT-Discover 采用了熵目标函数(Entropic Objective)。
该函数通过调整权重分配,引导模型偏向于产生奖励值最高的单一动作,而非平庸的整体轨迹。
其核心哲学是:在科学发现中,我们需要的是一个“惊艳的极优解”,而非一堆“及格的平庸方案”。
2. 搜索子程序的重构机制
研究引入了基于 PUCT 算法的重用机制,通过维护历史尝试的缓冲区,优先扩展最具潜力(高奖励值)的状态,同时通过算法确保探索的多样性。
这种设计的底层逻辑在于:科学发现的目标是超越人类现有的知识边界(即训练数据外),而非在已知的数据分布中寻找规律。
因此,AI 必须学会在实战中不断试错,从失败中归纳出属于该特定问题的“独特分布”。
这引出了一个深层思考:当面临前所未有的问题时,大模型应该如何训练?
TTT-Discover 的解决方案是:模型通过持续生成动作并获取环境反馈,将数万次的尝试(包含大量失败样本)沉淀到缓冲区中。
这些由搜索产生的特定数据,构成了针对该难题的“私有训练集”。这种“边实战边产出数据”的闭环机制,有效破解了分布外(OOD)问题缺乏训练样本的行业瓶颈。
目前市面上的主流方法多依赖于测试时搜索(Test-time Search),即通过提示词(Prompting)引导冻结的 LLM 进行多次尝试,类似于人类在脑海中“盲猜”解法。
但其局限性在于,虽然可以记录尝试过程,但模型本身的参数并未发生改变,其底层能力没有得到本质进化。
而 TTT-Discover 通过更新权重,让模型在针对单一问题的攻克过程中变得越来越“聪明”。
在算法实施层面,TTT-Discover 的搜索与学习过程均由策略生成动作,并通过问题描述自动诱导出环境转移函数。
其循环迭代步骤如下:
在工程实现中,传统 RL 方案面临两大瓶颈:一是目标函数对极端最优解不敏感;二是单次轨迹深度受限导致探索不足。
针对这些痛点,研究团队通过熵目标函数与 PUCT 启发式选择机制进行了深度优化。
熵目标函数让训练过程显式地偏好高上限的动作,而非追求平均表现的稳健性。
同时,通过 KL 惩罚项对优势函数进行重塑,在强化高效动作的同时,保留了模型突破局部最优解的探索能力。
在初始状态选择上,模型采用了优化的 PUCT 评分公式:
与旧有方案不同,Q(s) 在此处代表的是子节点的最大奖励值,这反映了科研人员的直觉:我们更看重某个方向“能达到多高”,而非它的平均表现。
通过这种方式,模型在利用(Exploitation)与探索(Exploration)之间找到了完美的平衡点,既能快速逼近性能极限,又能有效避免陷入思维定式。
实验数据显示,基于 TTT-Discover 方案,在 TTT 训练成本可控的前提下(单题数百美元),模型展现出了惊人的创造力。尤其在内核编写任务中,其速度达到了人类专家极限水平的 2 倍之多。
总而言之,TTT-Discover 证明了:通过在测试阶段引入针对性学习,中等规模的开源模型完全有能力在复杂的分布外(OOD)科学挑战中逆袭顶级闭源模型。
尽管目前该技术主要针对可验证奖励场景,但其为未来的通用 AI 科学研究指明了新方向。
本研究由 Mert Yuksekgonul 和 Daniel Koceja 共同领衔完成。
Mert Yuksekgonul,斯坦福大学计算机科学博士生,师从 AI 领域大牛 Carlos Guestrin 与 James Zou,专注于提升模型的泛化与学习效率。
Daniel Koceja,现任斯坦福大学人工智能实验室(SAIL)全职研究员,在 Yu Sun 的指导下开展前沿研究。
Yu Sun(通讯作者),斯坦福大学博士后、英伟达研究员。他毕业于 UC 伯克利,师从 Alexei Efros 与 Moritz Hardt,自 2019 年起便在测试时训练(Test-time Training)领域深耕,是该方向的开拓者之一。
Yu Sun 团队的这一系列工作,正在持续推动 AI 从单纯的“预测机器”向真正的“科学发现引擎”进化。
参考链接
[1] https://github.com/test-time-training/discover
[2] https://www.alphaxiv.org/abs/2601.16175
[3] https://openreview.net/profile?id=~Yu_Sun1
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433896.html