当前位置:首页 > 科技资讯 > 正文

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家

大型语言模型(LLM)的持续学习领域近日迎来突破性进展!

来自斯坦福大学、英伟达(NVIDIA)等全球顶级科研机构的最新研究,针对当前开放式科学难题的破解,提出了一种极具颠覆性的新范式——

Test-Time Training to Discover (TTT-Discover)

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第1张

该技术依托开源模型 gpt-oss-120b,在数学、生物、算法等多个关键领域刷新了 SOTA 纪录,其综合表现甚至超越了顶尖人类专家以及主流闭源前沿大模型。

与传统的“测试时缩放”(Test-time Scaling)方案不同,TTT-Discover 并不满足于仅通过 Prompt 调度来调用冻结权重的模型。

它创新的核心在于:在测试阶段,针对每一个具体的问题,引入强化学习(RL)机制对模型的权重进行实时动态更新。

这种“测试时训练”机制使模型能够从解决特定问题的失败尝试中获取反馈经验,并据此优化参数,最终实现模型能力的定向进化与自我突破。

具体科研成果包括:

数学领域:成功推导出了 Erdős 最小重叠问题的新界限,并提出了一条全新的自相关不等式。

Kernel 工程:在 GPUMode 性能竞赛中,其执行效率比顶级人类工程师快 2 倍。

算法挑战:在历届 AtCoder 编程竞赛题目中斩获历史最高分。

生物科学:在复杂的单细胞 RNA-seq 数据去噪任务上达到了 SOTA 水平。

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第2张

核心方法论:测试阶段的深度强化学习

本质上,这篇论文探讨的是如何在测试环节融入强化学习(Reinforcement Learning at Test Time),其核心逻辑体现在以下两个维度:

1. 学习目标(Learning Objective)的重塑

传统的强化学习往往追求提升所有任务的“平均收益”以保证泛化性,但 TTT-Discover 采用了熵目标函数(Entropic Objective)

该函数通过调整权重分配,引导模型偏向于产生奖励值最高的单一动作,而非平庸的整体轨迹。

其核心哲学是:在科学发现中,我们需要的是一个“惊艳的极优解”,而非一堆“及格的平庸方案”。

2. 搜索子程序的重构机制

研究引入了基于 PUCT 算法的重用机制,通过维护历史尝试的缓冲区,优先扩展最具潜力(高奖励值)的状态,同时通过算法确保探索的多样性。

这种设计的底层逻辑在于:科学发现的目标是超越人类现有的知识边界(即训练数据外),而非在已知的数据分布中寻找规律。

因此,AI 必须学会在实战中不断试错,从失败中归纳出属于该特定问题的“独特分布”。

这引出了一个深层思考:当面临前所未有的问题时,大模型应该如何训练?

TTT-Discover 的解决方案是:模型通过持续生成动作并获取环境反馈,将数万次的尝试(包含大量失败样本)沉淀到缓冲区中。

这些由搜索产生的特定数据,构成了针对该难题的“私有训练集”。这种“边实战边产出数据”的闭环机制,有效破解了分布外(OOD)问题缺乏训练样本的行业瓶颈。

目前市面上的主流方法多依赖于测试时搜索(Test-time Search),即通过提示词(Prompting)引导冻结的 LLM 进行多次尝试,类似于人类在脑海中“盲猜”解法。

但其局限性在于,虽然可以记录尝试过程,但模型本身的参数并未发生改变,其底层能力没有得到本质进化。

而 TTT-Discover 通过更新权重,让模型在针对单一问题的攻克过程中变得越来越“聪明”。

在算法实施层面,TTT-Discover 的搜索与学习过程均由策略生成动作,并通过问题描述自动诱导出环境转移函数。

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第3张

其循环迭代步骤如下:

  • 精准挑选: 从缓冲区中检索出最具潜力的方案作为迭代基点。
  • 动态生成: 产生全新的尝试路径(包括逻辑思考与代码实现)。
  • 多维评分: 对生成的尝试结果进行严谨评估。
  • 权重更新: 实时调整模型参数,强化其对最优思路的偏好。
  • 循环迭代: 重复上述过程,直至系统锁定最终的最佳解决方案。

熵目标函数与 PUCT 策略的协同效应

在工程实现中,传统 RL 方案面临两大瓶颈:一是目标函数对极端最优解不敏感;二是单次轨迹深度受限导致探索不足。

针对这些痛点,研究团队通过熵目标函数与 PUCT 启发式选择机制进行了深度优化。

熵目标函数让训练过程显式地偏好高上限的动作,而非追求平均表现的稳健性。

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第4张

同时,通过 KL 惩罚项对优势函数进行重塑,在强化高效动作的同时,保留了模型突破局部最优解的探索能力。

在初始状态选择上,模型采用了优化的 PUCT 评分公式:

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第5张

与旧有方案不同,Q(s) 在此处代表的是子节点的最大奖励值,这反映了科研人员的直觉:我们更看重某个方向“能达到多高”,而非它的平均表现。

通过这种方式,模型在利用(Exploitation)与探索(Exploration)之间找到了完美的平衡点,既能快速逼近性能极限,又能有效避免陷入思维定式。

实验数据显示,基于 TTT-Discover 方案,在 TTT 训练成本可控的前提下(单题数百美元),模型展现出了惊人的创造力。尤其在内核编写任务中,其速度达到了人类专家极限水平的 2 倍之多。

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第6张

总而言之,TTT-Discover 证明了:通过在测试阶段引入针对性学习,中等规模的开源模型完全有能力在复杂的分布外(OOD)科学挑战中逆袭顶级闭源模型。

尽管目前该技术主要针对可验证奖励场景,但其为未来的通用 AI 科学研究指明了新方向。

核心研究团队简介

本研究由 Mert Yuksekgonul 和 Daniel Koceja 共同领衔完成。

Mert Yuksekgonul,斯坦福大学计算机科学博士生,师从 AI 领域大牛 Carlos Guestrin 与 James Zou,专注于提升模型的泛化与学习效率。

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第7张

Daniel Koceja,现任斯坦福大学人工智能实验室(SAIL)全职研究员,在 Yu Sun 的指导下开展前沿研究。

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第8张

Yu Sun(通讯作者),斯坦福大学博士后、英伟达研究员。他毕业于 UC 伯克利,师从 Alexei Efros 与 Moritz Hardt,自 2019 年起便在测试时训练(Test-time Training)领域深耕,是该方向的开拓者之一。

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第9张

Yu Sun 团队的这一系列工作,正在持续推动 AI 从单纯的“预测机器”向真正的“科学发现引擎”进化。

斯坦福&英伟达重磅:TTT-Discover 问世,测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover  测试时训练 强化学习 科学发现 第10张

参考链接

[1] https://github.com/test-time-training/discover

[2] https://www.alphaxiv.org/abs/2601.16175

[3] https://openreview.net/profile?id=~Yu_Sun1