如果我们将当下的主流 AI 模型视作一名“博闻强识但思维固定”的应试选手,其成长路径往往是这样的:在漫长的预训练阶段博览群书,随后将所有知识点固化在静态的权重参数中(参数冻结)。
在面对考卷(推理阶段)时,它们主要依赖于对既有知识的“检索”与“逻辑推演”来作答。
即便像 OpenAI 推出的 o1 类具备“慢思考”能力的模型,本质上也只是在答题卡旁增加了更详细的草稿纸(思维链 CoT),其大脑的底层神经回路(权重)在考试那一刻依然是锁死的。
然而,本周由斯坦福大学与英伟达研究团队联合发布的论文《Learning to Discover at Test Time》彻底颠覆了这一现状。他们提出了一种名为 TTT-Discover(Test-Time Training,测试时训练) 的新范式——它不仅允许 AI 在考场上打草稿,更允许它根据题目难度现场“迭代大脑”。
这标志着我们对“机器智能”定义的又一次深刻重塑。
这项研究背后隐藏着一个极具冲击力的逻辑:它放弃了追求稳健的“平均分”,转而孤注一掷地冲击那一次难能可贵的“满分”。
在传统的强化学习框架下,我们致力于培养“全能型天才”,希望模型能举一反三,在解决当前问题的同时保持通用性。
但 TTT-Discover 认为:在尖端的科学发现(Discovery)领域,通用性往往是进步的枷锁。
设想我们要寻找一种能够攻克顽疾的新型分子结构,或是证伪一个流传百年的数学猜想。只要我们能捕捉到那一个关键的正确答案,即便模型为了这道题产生了严重的“过拟合”,甚至导致其丧失了处理其他问题的能力(练废了),这又有什么关系呢?
只要结果是正确的,人类文明就向前跨越了一大步。
秉持这种激进的实用主义,TTT-Discover 实施了三大核心策略:
即时进化:在推理阶段,针对每一个具体问题,通过强化学习算法直接动态修改模型权重的参数。
极端探索:它重构了损失函数,不再追求稳妥的局部最优,而是疯狂鼓励模型去触碰那些高风险但高回报的未知领域。
战术性弃用:这种为了解决特定难题而进化出的“特种兵”模型,在任务完成后即可功成身退,无需保存。
TTT-Discover 的强大并非空谈,它在多个公认的难题领域交出了令人惊叹的答卷。
1. 数学前沿:压低 Erdős 问题的边界
在数论领域著名的 Erdős 最小重叠问题上,人类数学家与此前的顶级 AI 模型(AlphaEvolve)已经在微小的数值区间内博弈多年。TTT-Discover 介入后,以一种强悍的姿态将该问题的上界从 0.380924 进一步压缩至 0.380876。
在纯数学的探索中,哪怕是小数点后五位的微调,也代表着对未知疆域的一次成功拓荒。
它通过进化构造出了一个包含 600 个分段的极其复杂的非对称函数,而此前人类通过逻辑推演所能达到的最佳构造仅为 51 段。
这展示了 AI 在处理超高维度、复杂非线性问题时,拥有超越人类直觉的架构能力。
2. 硬件效能:重写 GPU 内核优化标杆
在底层代码优化(TriMul)的较量中,目标是压榨 H100 等高端 GPU 的每一丝性能。这一领域向来是顶级架构师的领地。
人类专家给出的顶级优化方案在 H100 上的耗时为 1371 微秒。
而经过“现场训练”的 TTT-Discover 却写出了仅需 1161 微秒 的代码。
在 A100 显卡上,它更是以 50% 的性能提升幅度对人类顶尖水平实现了超越。
这意味着未来无需更换硬件,仅通过 TTT 算法的优化,计算效率就能获得质的飞跃。它所发现的“极致算子融合”等策略,甚至超出了经验丰富的工程师的认知范畴。
3. 竞技编程:称霸算法竞赛
在高度考验启发式搜索策略的 AtCoder 竞赛(ahc039, ahc058)中,TTT-Discover 横扫了现有的 AI 智能体,并成功跨越了人类金牌选手的历史最高分。
如果该模型实时参赛,它将稳居排行榜榜首。
尽管 TTT-Discover 的表现震撼,但其“暴力进化”的特征也决定了它并非普适的万能药。
首先,算力开销极其惊人。
普通的模型推理只需几毫秒,而 TTT-Discover 为了攻克一道题,需要进行数万次的自我博弈与权重更新。论文数据显示,解决单个复杂问题的成本高达 500 美元。
这种“重炮开火”的模式显然不适用于闲聊,但对于研发下一代光刻机指令集或寻找新药物分子来说,依然极具性价比。
其次,它是一个“极端的偏科生”。
在进化过程中,模型可能会为了计算出那个复杂的导数,而彻底“忘记”如何用正常的语言沟通。因为它的大脑空间在此时已经全部异化为了该问题的专属插件。
最后,它极度依赖“打分器(Verifier)”。
目前它只能处理那些具备明确奖励信号(Reward Signal)的问题,例如运行耗时长短、数学计算偏差等。对于那些无法被量化或缺乏即时反馈的模糊领域(如艺术创作或极其深奥的理论证明),它依然力有不逮。
本文的通讯作者 Yu Sun,是“测试时训练 (TTT)”这一范式的奠基人。这位目前在斯坦福大学与英伟达双栖的研究者,已在该领域深耕了 7 年之久。
图源:Yu Sun 个人主页
他曾师从计算机视觉教父 Alexei A. Efros,其学术背景深厚且目标极为坚定:他坚信“学习过程不应在训练室结束,而应在实战场延续”。
通过这篇论文,我们可以清晰地窥见 TTT 技术从视觉修复(1.0)到架构创新(2.0 TTT-LM)再到科学发现(3.0 Discover)的跨越式进阶。
1.0 时代: 侧重于让模型在测试时通过微调自身权重来适应模糊、旋转等数据噪声。
2.0 时代: 尝试用 TTT 过程直接取代 Transformer 的注意力机制,试图打破上下文窗口的限制。
3.0 时代: 即今天的 TTT-Discover,将 TTT 进化为一种主动的、具备发现能力的智慧形态。
TTT-Discover 的问世,与其说是技术迭代,不如说是一次哲学层面的启示。
在过去,我们追求 AI 成为永恒、稳健的“百科全书”;而现在,TTT 展示了另一种智慧的可能:为了在未知的暗室中寻得那一丝光亮,它不惜烧毁已有的全部认知,集中所有生命力实现瞬间的“异化”。
这种不顾一切的突破,或许正是人类历史上所有伟大科学发现的共性代价。
真正的探索者不追求长久的平庸,他们更倾向于化作一颗流星,用一瞬间的燃尽,照亮人类认知的终极荒原。
参考资料:
https://arxiv.org/pdf/2601.16175
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433688.html