当前位置：首页 > 科技资讯 > 正文

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家

主机测评网
科技资讯
2026-04-04
1000

大型语言模型（LLM）的持续学习领域近日迎来突破性进展！

来自斯坦福大学、英伟达（NVIDIA）等全球顶级科研机构的最新研究，针对当前开放式科学难题的破解，提出了一种极具颠覆性的新范式——

Test-Time Training to Discover (TTT-Discover)。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第1张

该技术依托开源模型 gpt-oss-120b，在数学、生物、算法等多个关键领域刷新了 SOTA 纪录，其综合表现甚至超越了顶尖人类专家以及主流闭源前沿大模型。

与传统的“测试时缩放”（Test-time Scaling）方案不同，TTT-Discover 并不满足于仅通过 Prompt 调度来调用冻结权重的模型。

它创新的核心在于：在测试阶段，针对每一个具体的问题，引入强化学习（RL）机制对模型的权重进行实时动态更新。

这种“测试时训练”机制使模型能够从解决特定问题的失败尝试中获取反馈经验，并据此优化参数，最终实现模型能力的定向进化与自我突破。

具体科研成果包括：

数学领域：成功推导出了 Erdős 最小重叠问题的新界限，并提出了一条全新的自相关不等式。

Kernel 工程：在 GPUMode 性能竞赛中，其执行效率比顶级人类工程师快 2 倍。

算法挑战：在历届 AtCoder 编程竞赛题目中斩获历史最高分。

生物科学：在复杂的单细胞 RNA-seq 数据去噪任务上达到了 SOTA 水平。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第2张

核心方法论：测试阶段的深度强化学习

本质上，这篇论文探讨的是如何在测试环节融入强化学习（Reinforcement Learning at Test Time），其核心逻辑体现在以下两个维度：

1. 学习目标（Learning Objective）的重塑

传统的强化学习往往追求提升所有任务的“平均收益”以保证泛化性，但 TTT-Discover 采用了熵目标函数（Entropic Objective）。

该函数通过调整权重分配，引导模型偏向于产生奖励值最高的单一动作，而非平庸的整体轨迹。

其核心哲学是：在科学发现中，我们需要的是一个“惊艳的极优解”，而非一堆“及格的平庸方案”。

2. 搜索子程序的重构机制

研究引入了基于 PUCT 算法的重用机制，通过维护历史尝试的缓冲区，优先扩展最具潜力（高奖励值）的状态，同时通过算法确保探索的多样性。

这种设计的底层逻辑在于：科学发现的目标是超越人类现有的知识边界（即训练数据外），而非在已知的数据分布中寻找规律。

因此，AI 必须学会在实战中不断试错，从失败中归纳出属于该特定问题的“独特分布”。

这引出了一个深层思考：当面临前所未有的问题时，大模型应该如何训练？

TTT-Discover 的解决方案是：模型通过持续生成动作并获取环境反馈，将数万次的尝试（包含大量失败样本）沉淀到缓冲区中。

这些由搜索产生的特定数据，构成了针对该难题的“私有训练集”。这种“边实战边产出数据”的闭环机制，有效破解了分布外（OOD）问题缺乏训练样本的行业瓶颈。

目前市面上的主流方法多依赖于测试时搜索（Test-time Search），即通过提示词（Prompting）引导冻结的 LLM 进行多次尝试，类似于人类在脑海中“盲猜”解法。

但其局限性在于，虽然可以记录尝试过程，但模型本身的参数并未发生改变，其底层能力没有得到本质进化。

而 TTT-Discover 通过更新权重，让模型在针对单一问题的攻克过程中变得越来越“聪明”。

在算法实施层面，TTT-Discover 的搜索与学习过程均由策略生成动作，并通过问题描述自动诱导出环境转移函数。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第3张

其循环迭代步骤如下：

精准挑选： 从缓冲区中检索出最具潜力的方案作为迭代基点。
动态生成： 产生全新的尝试路径（包括逻辑思考与代码实现）。
多维评分： 对生成的尝试结果进行严谨评估。
权重更新： 实时调整模型参数，强化其对最优思路的偏好。
循环迭代： 重复上述过程，直至系统锁定最终的最佳解决方案。

熵目标函数与 PUCT 策略的协同效应

在工程实现中，传统 RL 方案面临两大瓶颈：一是目标函数对极端最优解不敏感；二是单次轨迹深度受限导致探索不足。

针对这些痛点，研究团队通过熵目标函数与 PUCT 启发式选择机制进行了深度优化。

熵目标函数让训练过程显式地偏好高上限的动作，而非追求平均表现的稳健性。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第4张

同时，通过 KL 惩罚项对优势函数进行重塑，在强化高效动作的同时，保留了模型突破局部最优解的探索能力。

在初始状态选择上，模型采用了优化的 PUCT 评分公式：

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第5张

与旧有方案不同，Q(s) 在此处代表的是子节点的最大奖励值，这反映了科研人员的直觉：我们更看重某个方向“能达到多高”，而非它的平均表现。

通过这种方式，模型在利用（Exploitation）与探索（Exploration）之间找到了完美的平衡点，既能快速逼近性能极限，又能有效避免陷入思维定式。

实验数据显示，基于 TTT-Discover 方案，在 TTT 训练成本可控的前提下（单题数百美元），模型展现出了惊人的创造力。尤其在内核编写任务中，其速度达到了人类专家极限水平的 2 倍之多。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第6张

总而言之，TTT-Discover 证明了：通过在测试阶段引入针对性学习，中等规模的开源模型完全有能力在复杂的分布外（OOD）科学挑战中逆袭顶级闭源模型。

尽管目前该技术主要针对可验证奖励场景，但其为未来的通用 AI 科学研究指明了新方向。

核心研究团队简介

本研究由 Mert Yuksekgonul 和 Daniel Koceja 共同领衔完成。

Mert Yuksekgonul，斯坦福大学计算机科学博士生，师从 AI 领域大牛 Carlos Guestrin 与 James Zou，专注于提升模型的泛化与学习效率。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第7张

Daniel Koceja，现任斯坦福大学人工智能实验室（SAIL）全职研究员，在 Yu Sun 的指导下开展前沿研究。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第8张

Yu Sun（通讯作者），斯坦福大学博士后、英伟达研究员。他毕业于 UC 伯克利，师从 Alexei Efros 与 Moritz Hardt，自 2019 年起便在测试时训练（Test-time Training）领域深耕，是该方向的开拓者之一。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第9张

Yu Sun 团队的这一系列工作，正在持续推动 AI 从单纯的“预测机器”向真正的“科学发现引擎”进化。

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家 TTT-Discover 测试时训练强化学习科学发现第10张

参考链接

[1] https://github.com/test-time-training/discover

[2] https://www.alphaxiv.org/abs/2601.16175

[3] https://openreview.net/profile?id=~Yu_Sun1

免费vps

本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260433896.html

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家

核心方法论：测试阶段的深度强化学习

熵目标函数与 PUCT 策略的协同效应

核心研究团队简介

Linux文件系统详解（从零基础到精通的入门指南）

Linux进程深度解析（从进程状态到O(1)调度算法全攻略）

斯坦福&英伟达重磅：TTT-Discover 问世，测试时训练让开源大模型在科学领域“定向进化”超越人类专家

核心方法论：测试阶段的深度强化学习

熵目标函数与 PUCT 策略的协同效应

核心研究团队简介

Linux文件系统详解（从零基础到精通的入门指南）

Linux进程深度解析（从进程状态到O(1)调度算法全攻略）

相关文章