DeepConf由Meta AI与加州大学圣地亚哥分校的研究团队提出,其核心理念是在大模型推理过程中引入实时置信度监控机制。通过动态淘汰低置信度路径,并对高置信度路径进行加权投票,该方法在确保高准确率的同时大幅提升效率。在AIME 2025数学竞赛中,它首次让开源模型在不依赖外部工具的情况下达到99.9%的正确率,同时将生成token数量削减85%。
如何使模型在思考过程中更智能、更高效,并对自身答案更有把握?近期,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个突破性答案——Deep Think with Confidence(DeepConf),即让模型进行自信的深度思考。
论文地址:https://arxiv.org/pdf/2508.15260
项目主页:https://jiaweizzhao.github.io/deepconf
这项创新方法通过并行思考与置信度筛选机制,使模型在国际顶尖数学竞赛AIME 2025上取得了高达99.9%的正确率。
这是首次利用开源模型在AIME 2025上实现99.9%的准确率,且无需任何外部工具辅助!
在保持高质量推理的同时,该方法将生成的token数量减少了84.7%。
DeepConf为并行思考带来了多项显著优势:
以DeepConf在HMMT 25(哈佛–麻省理工数学竞赛)第11题为例,展示其推理过程。
核心思想是通过置信度信号筛选推理路径,从而获得高质量答案,在效率与准确率之间达到最佳平衡。
DeepConf在生成过程中持续监控推理路径的置信度,及时淘汰低置信度路径,只保留“更有把握”的路径,从而提升整体准确性。
通过准确率对比曲线可见,纵轴为accuracy(准确率),黄色曲线(DeepConf)明显高于蓝色曲线(标准方法),表明DeepConf在相同投票规模下能达到更高准确率。
下图横轴为token数量(推理计算成本),黄色曲线在保持较高准确率的同时,token消耗显著减少,表明DeepConf大幅削减无效token生成,推理效率更优。
DeepConf使模型不再“盲目思考”,而是高效遵循高置信度推理轨道。
DeepConf支持两种工作模式:
实际上,大模型在推理过程中能够感知自身的不确定性,但这一“思考过程”常被忽视。传统方法通常在生成完成后使用置信度或熵进行测试或强化学习,而DeepConf则不同,它在生成过程中实时捕捉推理错误。
DeepConf通过监控“局部置信度”,在错误推理路径消耗大量token前及时终止,仅保留高质量、高置信度的推理路径!
DeepConf如何实现“用置信度筛选、用置信度投票”?
该图展示了DeepConf在离线思考时的核心机制:首先评估推理路径的可信度,提前剔除不靠谱路径,再让可靠路径进行加权投票,从而获得更准确、高效的最终答案。
首先是每个token的确定程度。当模型生成推理步骤时,每个词(token)都对应一个“信心值”。若模型认为该步骤可靠,信心值高;若不确定,信心值则低。图中用深浅绿色和红色标示:绿色表示更自信,红色表示不自信。
其次,关注整体趋势。DeepConf不仅看单个token,还通过滑动窗口评估一小段话的平均信心值,以衡量整体可靠性。它重点关注结尾部分的信心值,因为最终答案往往取决于结论。同时,它会记录推理链中最差的一步,若中间出现明显错误,该路径将被视为不可靠。这样,每条推理链都会获得一个综合“置信度分数”。
最后,先淘汰后投票。当模型并行生成多条推理路径时:第一步是过滤,将置信度分数排序,淘汰最差的10%路径;第二步是投票,在剩余路径中按置信度加权投票,高置信度路径的意见权重更大。最终,如图右侧所示,多条路径可能提出不同答案,但由于支持某一答案的路径更多且置信度更高,系统会选出该答案(如109)。
离线模式结果:在AIME 2025上达到99.9%准确率(基线为97%)。在5个模型×5个数据集上实现普适性提升,所有设置下准确率平均提高约10%。
在线模式结果:在所有基准测试中节省33%-85%的token。在AIME 2025测试中,使用GPT-OSS-120B模型,在减少85% token消耗下仍保持97.9%准确率。该方法适用于8B到120B的各种开源模型,在不牺牲质量的前提下实现实时高效。
离线环境中置信度度量的基准测试。报告数值为准确率(%)。Cons@512和mean@512分别表示使用512条推理轨迹的多数投票结果和平均置信度均值。所有实验重复64次。
在线环境中DeepConf的基准测试。在投票规模预算为512的条件下,报告多数投票方法与DeepConf(高/低)的准确率(%)及生成token数量(×10⁸)。
研究团队深入探索如何巧妙利用“置信度”,使模型既提高准确性又加快推理速度。具体分为两个应用场景:
在离线思考模式下,所有推理路径均已生成。核心挑战是如何聚合多条路径信息以确定最终答案。研究人员采用标准多数投票方法:
图3阐释了各种置信度度量方法及基于置信度的离线思考工作原理。
算法1提供了该算法的详细实现。
在线思考模式通过在生成过程中实时评估推理路径质量,动态终止低质量路径,确保其在后续过滤阶段被排除。研究人员提出两种基于最低分组置信度的方法:DeepConf-low和DeepConf-high,包含离线预热与自适应采样两大核心组件。
图4阐释了在线生成过程。
算法2提供了该算法的详细实现。
以“勾股三元组计数”问题为例,DeepConf在生成推理时判断思路可靠性:靠谱则继续,不靠谱则尽早停止,以节省token并提高准确性。过程分为两个阶段:先通过离线预热确定阈值s,再在线筛选。离线阶段运行几条完整推理轨迹,计算整体置信度分数,并设定停止阈值s;在线阶段并行展开多条思路,滚动评估最近片段的可靠度,若置信度低于s则触发早停。例如,左下绿曲线表示模型对正经数学推理(如“勾股三元组公式…”)有把握,被保留;右下红曲线表示模型犹豫(如“让我再想想…”),被判为低置信度而终止。
论文一作Yichao Fu是加州大学圣地亚哥分校计算机科学与工程系博士生,师从张昊教授(Hao AI Lab负责人)。他此前在浙江大学获得计算机科学学士学位,研究方向包括分布式系统、机器学习系统及高效机器学习算法,近期专注于为大语言模型推理过程设计优化算法与系统。他参与的项目包括Lookahead Decoding、vllm-ltr和Dynasor。
https://jiaweizzhao.github.io/deepconf/
https://huggingface.co/papers/2508.15260
https://x.com/jiawzhao/status/1958982524333678877
本文由主机测评网于2025-12-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212588.html