在人工智能技术日新月异的背景下,如何引导AI发现科学领域的“新最优解”已成为业界关注的焦点。
目前主流的策略是依赖“测试时搜索”(Test-time search)。这种方法类似于人类解题时的尝试性摸索,通过让一个参数冻结的大语言模型(LLM)进行多次实验。例如AlphaEvolve等进化搜索工具,虽然能将过往尝试存入缓冲区并利用启发式规则优化提示词,但模型本身的认知水平并未真正提升,正如一名学生只会机械模仿而无法内化知识点。
然而,推动LLM跨越式进步的核心动力在于“学习”。
尽管搜索与学习都能随算力扩展而增强,但在围棋、蛋白质折叠等前沿领域,具备自我进化能力的“学习”机制最终往往能战胜单纯的“搜索”。这是因为,科学探索的本质是应对超出训练数据范围的分布外(OOD)问题。
为此,斯坦福大学与英伟达等科研机构联手推出了一项革命性方法:在测试阶段引入强化学习(RL),即允许LLM在解决具体问题的过程中不断进行自我训练与迭代。
在该框架下,团队将单个测试任务定义为特定的RL环境。不同于传统RL追求“平均分”的目标,该方法专注于解决眼下的单一难题,旨在产出一个极端优秀的突破性解法,而非多个平庸的方案。
这一命名为“TTT-Discover”(测试时训练发现)的方法,通过优化的学习目标函数和搜索策略,显著提升了寻找最优路径的效率。
实验数据令人振奋:该方法在多项挑战中超越了DeepMind的AlphaEvolve;在数学领域的Erdős最小重叠问题上取得了历史性突破;在GPUMode竞赛中,研发出比人类专家快两倍的A100 GPU内核;在AtCoder算法测试中甚至超越了顶级人类程序员;并在单细胞分析等生物任务中刷新了纪录。
值得称赞的是,即便基于gpt-oss-120b等开放模型,该方法的计算开销也极具竞争力。通过Thinking Machines提供的Tinker API,解决单个问题的成本通常仅需数百美元。
业内专家认为,TTT-Discover的问世为大模型的持续学习与科学发现开辟了全新的想象空间。
下图揭示了TTT-Discover的核心运行机制。它展示了模型在解决GPUMode TriMul竞赛任务时,权重策略πθi如何随训练步数演进。从初始的第0步到最终的第49步,奖励分布明显向高分区域偏移。
随着训练的深入,LLM生成的解法质量逐步提高,最终成功攻克了人类专家的最优方案。
特别需要指出的是,TTT-Discover并未生搬硬套PPO或GRPO等标准RL算法。
研发团队指出,标准RL倾向于优化期望奖励(平均水平),但在科学探索中,我们只关心那一个“最高分”。为了避免策略落入“稳健但平庸”的陷阱,团队引入了两项关键创新:
第一是自适应熵目标函数。它通过指数加权机制极大地向高奖励样本倾斜。为了平衡训练的稳定性与改进的微小幅度,团队通过约束策略的KL散度,为不同状态自适应地计算β参数。
第二是基于PUCT启发的路径复用机制。在选择初始状态时,团队不再使用“平均回报”,而是关注该状态能达到的“最大回报”Q(s)。这种设计确保了计算资源能集中在最有潜力的解决路径上,同时兼顾了探索的多样性。
这种熵目标与状态复用策略的结合,使得TTT-Discover能够精准捕捉到单一的巅峰解法。
团队在数学、GPU内核工程、算法逻辑及生物分析四个维度对TTT-Discover进行了实测。
评测标准极为严苛:必须能与人类顶尖专家的成绩进行量化对比。例如在数学构造和算法竞赛中,直接对抗人类竞赛的最高纪录。
在数学领域,针对著名的Erdős最小重叠问题,TTT-Discover构造出了更优的数学对象,将成绩从人类最佳的0.380927和AI最佳的0.380924刷新至0.380876。
在GPU内核优化领域,“新最优解”意味着更卓越的吞吐性能。在GPUMODE平台上,TTT-Discover编写的TriMul内核在A100 GPU上比人类专家的最佳提交还要快50%,整体性能平均提升超15%。
在算法竞赛与生物工程测试中,该方法同样表现优异,展现了强大的通用性。
尽管TTT-Discover已取得显著进展,但研究团队表示,目前该方法主要适用于具备连续奖励的问题。未来,科研人员将探索如何在稀疏奖励(如数学证明)或难以即时验证的领域(如物理推理)应用测试时训练技术。
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260434032.html