当前位置：首页 > 科技资讯 > 正文

DeepConf：基于置信度监控的大模型高效推理新范式

主机测评网
科技资讯
2025-12-25
391

DeepConf由Meta AI与加州大学圣地亚哥分校的研究团队提出，其核心理念是在大模型推理过程中引入实时置信度监控机制。通过动态淘汰低置信度路径，并对高置信度路径进行加权投票，该方法在确保高准确率的同时大幅提升效率。在AIME 2025数学竞赛中，它首次让开源模型在不依赖外部工具的情况下达到99.9%的正确率，同时将生成token数量削减85%。

如何使模型在思考过程中更智能、更高效，并对自身答案更有把握？近期，Meta AI与加州大学圣地亚哥分校的研究团队给出了一个突破性答案——Deep Think with Confidence（DeepConf），即让模型进行自信的深度思考。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第1张

论文地址：https://arxiv.org/pdf/2508.15260

项目主页：https://jiaweizzhao.github.io/deepconf

这项创新方法通过并行思考与置信度筛选机制，使模型在国际顶尖数学竞赛AIME 2025上取得了高达99.9%的正确率。

这是首次利用开源模型在AIME 2025上实现99.9%的准确率，且无需任何外部工具辅助！

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第2张

在保持高质量推理的同时，该方法将生成的token数量减少了84.7%。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第3张

DeepConf为并行思考带来了多项显著优势：

性能提升：在各种模型与数据集上，准确率平均提高约10%
效率优化：生成token数量大幅减少，最高可达85%
即插即用：兼容任何现有模型，无需额外训练或超参数调整
易于部署：在vLLM中仅需约50行代码即可集成

以DeepConf在HMMT 25（哈佛–麻省理工数学竞赛）第11题为例，展示其推理过程。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第4张

核心思想是通过置信度信号筛选推理路径，从而获得高质量答案，在效率与准确率之间达到最佳平衡。

横轴（token index）：表示模型生成的推理步骤（随token递增）。
纵轴（confidence）：表示每条推理路径在该步骤的置信度水平。
绿色曲线：表示不同推理路径的置信度轨迹，颜色越深置信度越高。
红色叉叉：低于置信度阈值的推理路径，被动态淘汰。
绿色对勾：最终保留的高置信度路径。
最终表决：这些路径通过基于置信度加权的多数表决，得出统一答案：29。

DeepConf在生成过程中持续监控推理路径的置信度，及时淘汰低置信度路径，只保留“更有把握”的路径，从而提升整体准确性。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第5张

通过准确率对比曲线可见，纵轴为accuracy（准确率），黄色曲线（DeepConf）明显高于蓝色曲线（标准方法），表明DeepConf在相同投票规模下能达到更高准确率。

下图横轴为token数量（推理计算成本），黄色曲线在保持较高准确率的同时，token消耗显著减少，表明DeepConf大幅削减无效token生成，推理效率更优。

DeepConf使模型不再“盲目思考”，而是高效遵循高置信度推理轨道。

DeepConf支持两种工作模式：

离线模式：根据置信度筛选已完成推理路径，并按质量加权投票。
在线模式：当置信度实时降至阈值以下时，立即停止生成。

DeepConf的核心机制是什么？

实际上，大模型在推理过程中能够感知自身的不确定性，但这一“思考过程”常被忽视。传统方法通常在生成完成后使用置信度或熵进行测试或强化学习，而DeepConf则不同，它在生成过程中实时捕捉推理错误。

DeepConf通过监控“局部置信度”，在错误推理路径消耗大量token前及时终止，仅保留高质量、高置信度的推理路径！

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第6张

DeepConf如何实现“用置信度筛选、用置信度投票”？

该图展示了DeepConf在离线思考时的核心机制：首先评估推理路径的可信度，提前剔除不靠谱路径，再让可靠路径进行加权投票，从而获得更准确、高效的最终答案。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第7张

首先是每个token的确定程度。当模型生成推理步骤时，每个词（token）都对应一个“信心值”。若模型认为该步骤可靠，信心值高；若不确定，信心值则低。图中用深浅绿色和红色标示：绿色表示更自信，红色表示不自信。

其次，关注整体趋势。DeepConf不仅看单个token，还通过滑动窗口评估一小段话的平均信心值，以衡量整体可靠性。它重点关注结尾部分的信心值，因为最终答案往往取决于结论。同时，它会记录推理链中最差的一步，若中间出现明显错误，该路径将被视为不可靠。这样，每条推理链都会获得一个综合“置信度分数”。

最后，先淘汰后投票。当模型并行生成多条推理路径时：第一步是过滤，将置信度分数排序，淘汰最差的10%路径；第二步是投票，在剩余路径中按置信度加权投票，高置信度路径的意见权重更大。最终，如图右侧所示，多条路径可能提出不同答案，但由于支持某一答案的路径更多且置信度更高，系统会选出该答案（如109）。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第8张

性能突破99.9%，超越GPT-5

离线模式结果：在AIME 2025上达到99.9%准确率（基线为97%）。在5个模型×5个数据集上实现普适性提升，所有设置下准确率平均提高约10%。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第9张

在线模式结果：在所有基准测试中节省33%-85%的token。在AIME 2025测试中，使用GPT-OSS-120B模型，在减少85% token消耗下仍保持97.9%准确率。该方法适用于8B到120B的各种开源模型，在不牺牲质量的前提下实现实时高效。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第10张

离线环境中置信度度量的基准测试。报告数值为准确率（%）。Cons@512和mean@512分别表示使用512条推理轨迹的多数投票结果和平均置信度均值。所有实验重复64次。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第11张

在线环境中DeepConf的基准测试。在投票规模预算为512的条件下，报告多数投票方法与DeepConf（高/低）的准确率（%）及生成token数量（×10⁸）。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第12张

置信度驱动的深度思考策略

研究团队深入探索如何巧妙利用“置信度”，使模型既提高准确性又加快推理速度。具体分为两个应用场景：

离线思考：待模型生成完整推理路径后，评估每条路径的置信度，聚合可靠结果以最大化答案准确性。
在线思考：在模型逐步推理过程中实时参考置信度，及时终止不靠谱思路，避免算力浪费，从而提升效率甚至精度。

离线思考模式

在离线思考模式下，所有推理路径均已生成。核心挑战是如何聚合多条路径信息以确定最终答案。研究人员采用标准多数投票方法：

多数投票（Majority Voting）：每条路径的最终答案贡献均等。设T为所有路径集合，对于路径t∈T，answer(t)为提取的答案文本，则候选答案a的票数为路径数。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第13张

置信度加权多数投票：依据路径关联置信度为每个最终答案赋予权重。候选答案a的总投票权被重定义为置信度加权和。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第14张

置信度过滤：在加权多数投票基础上，通过置信度分数筛选出前η%的路径，确保只有最可靠路径参与决策。选择前10%专注于高置信度少数路径，但可能受模型偏见影响；选择前90%纳入更广泛路径，保持多样性且更稳健。

图3阐释了各种置信度度量方法及基于置信度的离线思考工作原理。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第15张

算法1提供了该算法的详细实现。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第16张

在线思考模式

在线思考模式通过在生成过程中实时评估推理路径质量，动态终止低质量路径，确保其在后续过滤阶段被排除。研究人员提出两种基于最低分组置信度的方法：DeepConf-low和DeepConf-high，包含离线预热与自适应采样两大核心组件。

离线预热（Offline Warmup）：为在线决策建立停止阈值s。对于每个新提示词，首先生成Ninit条推理路径（如Ninit=16）。停止阈值s定义为能够筛选出置信度排序前η%路径的最低门槛。DeepConf-low采用前η=10%策略，DeepConf-high采用前η=90%策略。在线生成中，一旦路径置信度低于s，生成即被终止。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第17张

自适应采样（Adaptive Sampling）：根据问题难度动态调整生成路径数量。难度通过已生成路径的一致性评估，量化方式为多数投票权重与总投票权重的比值β。若β<τ，表明模型未达成共识，继续生成路径；反之则停止生成，利用现有路径确定答案。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第18张

图4阐释了在线生成过程。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第19张

算法2提供了该算法的详细实现。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第20张

以“勾股三元组计数”问题为例，DeepConf在生成推理时判断思路可靠性：靠谱则继续，不靠谱则尽早停止，以节省token并提高准确性。过程分为两个阶段：先通过离线预热确定阈值s，再在线筛选。离线阶段运行几条完整推理轨迹，计算整体置信度分数，并设定停止阈值s；在线阶段并行展开多条思路，滚动评估最近片段的可靠度，若置信度低于s则触发早停。例如，左下绿曲线表示模型对正经数学推理（如“勾股三元组公式…”）有把握，被保留；右下红曲线表示模型犹豫（如“让我再想想…”），被判为低置信度而终止。

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第21张

作者介绍

Yichao Fu

DeepConf：基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控并行思考推理效率第22张

论文一作Yichao Fu是加州大学圣地亚哥分校计算机科学与工程系博士生，师从张昊教授（Hao AI Lab负责人）。他此前在浙江大学获得计算机科学学士学位，研究方向包括分布式系统、机器学习系统及高效机器学习算法，近期专注于为大语言模型推理过程设计优化算法与系统。他参与的项目包括Lookahead Decoding、vllm-ltr和Dynasor。