当前位置：首页 > 科技资讯 > 正文

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录

主机测评网
科技资讯
2026-04-04
200

在人工智能技术日新月异的背景下，如何引导AI发现科学领域的“新最优解”已成为业界关注的焦点。

目前主流的策略是依赖“测试时搜索”（Test-time search）。这种方法类似于人类解题时的尝试性摸索，通过让一个参数冻结的大语言模型（LLM）进行多次实验。例如AlphaEvolve等进化搜索工具，虽然能将过往尝试存入缓冲区并利用启发式规则优化提示词，但模型本身的认知水平并未真正提升，正如一名学生只会机械模仿而无法内化知识点。

然而，推动LLM跨越式进步的核心动力在于“学习”。

尽管搜索与学习都能随算力扩展而增强，但在围棋、蛋白质折叠等前沿领域，具备自我进化能力的“学习”机制最终往往能战胜单纯的“搜索”。这是因为，科学探索的本质是应对超出训练数据范围的分布外（OOD）问题。

为此，斯坦福大学与英伟达等科研机构联手推出了一项革命性方法：在测试阶段引入强化学习（RL），即允许LLM在解决具体问题的过程中不断进行自我训练与迭代。

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第1张

研究论文：https://www.alphaxiv.org/abs/2601.16175
开源地址：https://github.com/test-time-training/discover

在该框架下，团队将单个测试任务定义为特定的RL环境。不同于传统RL追求“平均分”的目标，该方法专注于解决眼下的单一难题，旨在产出一个极端优秀的突破性解法，而非多个平庸的方案。

这一命名为“TTT-Discover”（测试时训练发现）的方法，通过优化的学习目标函数和搜索策略，显著提升了寻找最优路径的效率。

实验数据令人振奋：该方法在多项挑战中超越了DeepMind的AlphaEvolve；在数学领域的Erdős最小重叠问题上取得了历史性突破；在GPUMode竞赛中，研发出比人类专家快两倍的A100 GPU内核；在AtCoder算法测试中甚至超越了顶级人类程序员；并在单细胞分析等生物任务中刷新了纪录。

值得称赞的是，即便基于gpt-oss-120b等开放模型，该方法的计算开销也极具竞争力。通过Thinking Machines提供的Tinker API，解决单个问题的成本通常仅需数百美元。

业内专家认为，TTT-Discover的问世为大模型的持续学习与科学发现开辟了全新的想象空间。

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第2张

TTT-Discover 的技术创新点

下图揭示了TTT-Discover的核心运行机制。它展示了模型在解决GPUMode TriMul竞赛任务时，权重策略πθi如何随训练步数演进。从初始的第0步到最终的第49步，奖励分布明显向高分区域偏移。

随着训练的深入，LLM生成的解法质量逐步提高，最终成功攻克了人类专家的最优方案。

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第3张

特别需要指出的是，TTT-Discover并未生搬硬套PPO或GRPO等标准RL算法。

研发团队指出，标准RL倾向于优化期望奖励（平均水平），但在科学探索中，我们只关心那一个“最高分”。为了避免策略落入“稳健但平庸”的陷阱，团队引入了两项关键创新：

第一是自适应熵目标函数。它通过指数加权机制极大地向高奖励样本倾斜。为了平衡训练的稳定性与改进的微小幅度，团队通过约束策略的KL散度，为不同状态自适应地计算β参数。

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第4张

第二是基于PUCT启发的路径复用机制。在选择初始状态时，团队不再使用“平均回报”，而是关注该状态能达到的“最大回报”Q(s)。这种设计确保了计算资源能集中在最有潜力的解决路径上，同时兼顾了探索的多样性。

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第5张

这种熵目标与状态复用策略的结合，使得TTT-Discover能够精准捕捉到单一的巅峰解法。

全方位性能评估

团队在数学、GPU内核工程、算法逻辑及生物分析四个维度对TTT-Discover进行了实测。

评测标准极为严苛：必须能与人类顶尖专家的成绩进行量化对比。例如在数学构造和算法竞赛中，直接对抗人类竞赛的最高纪录。

在数学领域，针对著名的Erdős最小重叠问题，TTT-Discover构造出了更优的数学对象，将成绩从人类最佳的0.380927和AI最佳的0.380924刷新至0.380876。

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第6张

在GPU内核优化领域，“新最优解”意味着更卓越的吞吐性能。在GPUMODE平台上，TTT-Discover编写的TriMul内核在A100 GPU上比人类专家的最佳提交还要快50%，整体性能平均提升超15%。

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第7张

在算法竞赛与生物工程测试中，该方法同样表现优异，展现了强大的通用性。

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第8张

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录 TTT-Discover 测试时训练强化学习科学探索第9张

尽管TTT-Discover已取得显著进展，但研究团队表示，目前该方法主要适用于具备连续奖励的问题。未来，科研人员将探索如何在稀疏奖励（如数学证明）或难以即时验证的领域（如物理推理）应用测试时训练技术。

免费服务器阿里云服务器性价比vps

本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260434032.html

斯坦福与英伟达重磅发布TTT-Discover：让AI在解决问题中自主进化，刷新多项科学发现纪录

TTT-Discover 的技术创新点

全方位性能评估

鸿蒙开发实战（HarmonyOS网络请求简化示例教程）

相关文章