DeepSeek精度效率双提升，华为信工所提出思维链“提前退出”机制

2025年05月12日15:30:11 科技 7372

deer团队投稿
量子位 | 公众号 qbitai

长思维链让大模型具备了推理能力，但如果过度思考，就有可能成为负担。

华为联合中科院信工所提出了一种新的模式，让大模型提前终止思考来避免这一问题。

利用这种方法，无需额外训练，就可以让大模型的精度和效率同时提升。

这种方式名为deer，也就是动态提前退出推理（dynamic early exit in reasoning）的简称。

其核心在于找到推理信息质量下降之前的临界点，并在临界点及时让大模型中断推理。

结果在多个推理基准中，deer在deepseek系列推理llm上始终有效，将思维链生成长度平均减少31%到43%，同时将准确率提高1.7%到5.7%。

截至目前，deer已在qwq、qwen3、nemotron等更多推理模型和11个评测集上被验证持续有效。

停止推理的临界点，需要动态规划

直观上，随着思维链中的推理路径数量的增加，生成结论时可参考的信息也会更多。

如果能够识别出推理信息变得刚好足够的临界点（称为珍珠推理，pearl reasoning），并迫使模型在此点停止进一步思考并直接输出结论，就可以同时实现准确率和效率。

这项研究的关键，就是在生成长思维链过程中找到这样的珍珠。

为了验证这一动机，作者在每个推理路径的转换点强制模型从思考切换到直接生成答案。如果得到的答案是正确的，则验证了这种珍珠推理的存在。

如下图所示，大约75%的样本确实包含这样的珍珠（即提前退出依然可以生成正确答案），甚至有36.7%的样本只需不到一半的原始推理路径就能得到正确答案。

因此，如何从长思维链中找到pearl reasoning是实现高效推理的一个极具潜力和价值的课题。

为此，作者在先导实验中详细分析了推理模型存在的过度思考问题，并探索了静态早期退出对模型性能的影响，所有实验都是在deepseek-r1-ditil-qwen-14b上进行的。

作者首先让模型在测试集上执行完整的推理（包括前后think标签之间的思维链和结论），然后保留完整的思维链并根据思路转换点（如“wait”等词前后存在思路转换）将其划分为思维块。

对于这些样本，作者保留了不同比例（20%-90%）的思维块，并在每个截断处附加一个思维结束标记分隔符，以强制终止思维链过程并生成最终结论。

定量结果表明，在仅使用20%的推理步骤就提前退出的静态设定下，对于math-500，有60.8%的正确回答样本依然能保持正确；

对于较难的gpqa，仍然有35.1%样本可以保持正确。

下图说明了在不同的位置提前退出可以纠正的错误答案的不同比例。

对于math数据集，当以40%的推理步骤退出时达到最高的纠错率；而对于gpqa数据集，当以50%的推理步骤退出时达到最佳纠错率。

似乎每个问题的最佳早期退出点都不尽相同，并且与问题本身的固有难度密切相关。

因此，依赖基于固定启发式的静态提前退出策略是次优的，作者以此为动机设计了动态提前退出机制，通过寻找珍珠推理进一步纠错提高准确性，同时减少生成的长度。

那么，deer具体是如何工作的呢？

三步判断退出推理时机

deer将模型在推理中切换思维链的关键时刻视为提前退出的时机，并促使大模型在这些时刻停止思考并生成尝试性答案。

每个试验答案的置信度，是推理中提前退出的决策参考。

具体来说，deer方法包含三个动作——推理转换监控（reasoning transition monitor）、试验性答案诱导（trial answer inducer）和置信度评价（confidence evaluation）。

推理转换监控是受budget force技术的启发，将诸如“wait”“alternatively”这样的单词识别为思路转换的临界点并监控其出现。

当思路转换点出现时，将触发答案诱导的动作——作者将“wait”替换为类似于“final answer:”的标记，以诱导模型立即生成验证性答案。

这将用于第三个动作，也就是置信度评价——

如果置信度足够高，则将模型设置为停止进一步思考，并基于已经生成的思维链直接生成结论；
否则，撤销答案诱导的动作，沿原路径继续推理。

下图展示了deer对验证性答案的置信度确实能够反映出已生成的思维链是否足够支撑大模型生成最终答案的信息量。

可以观察到，当模型的推理过程不完整或有缺陷时，试验答案往往表现出明显较低的置信度；相反，当推理全面且逻辑合理时，模型生成的答案具有更高的置信度。

直觉上，deer中的答案诱导和置信度评价的计算在推理过程中引入了额外的延迟，特别是对于测试答案仍然很长的代码生成任务，这降低了通过缩短思维链序列而获得的效率增益。

为了解决这个问题，作者提出了分支并行加速（branch-parallel acceleration）策略，以进一步解决这些效率限制：

多个分支线性化为单个序列，并使用专门的causal attention mask并行生成；
通过基于置信度的剪枝实现动态kv缓存管理。该策略允许trail answer inducer和confidence evaluation和正在进行的推理链生成之间的时间重叠，从而优化整体推理效率。

另外，关于端到端时延的更多讨论将在即将发布的版本中加入。

让推理模型更快更强

为了验证deer的表现，作者在6个挑战性的推理benchmark上进行了测评，其中包含3个数学推理任务（math-500、amc 2023、aime 2024）、一个科学推理任务（gpqa diamond）、两个代码生成任务（humaneval、bigcodebench）。

评测指标选用了准确率和生成长度两个维度，分别衡量精度和效率。实验选用了不同规模的deepseek-r1-distill-qwen系列模型（1.5b, 7b, 14b, 32b）。

实验结果表明，deer在所有规模的模型和评测集上都展现出了惊人的效果。

数值上，deer相比于常规的long cot方法准确率平均提升了1.7到5.7个点，同时生成长度缩短了31%到43%。

在小规模的模型上，deer对于math-500和amc 2023两个难度稍低的benchmark提升更显著。

在大规模的模型上，deer对于aime 2024和gpqa两个更具挑战性的benchmark提升更显著。

尤其是当模型的推理能力与问题难度匹配时，作者的方法更加有效。

在humaneval和bigcodebench两个programming测试集上，作者的方法实现了平均减少64.9%的生成长度，而pass@1提高了2.1个点，并对0.95附近的阈值表现鲁棒，不会有显著波动。

为了进一步验证deer对于端到端推理效率的提升，作者基于huggingface transformers在math和amc两个数据集上测试了平均每个样本的推理时延。

结果表明，在未使用作者提出的分支并行解码加速的情况下，deer就已经减少了43.4%到47.3%的推理时延。

而采用了分支并行解码后，推理时延的下降比例和序列长度的下降比例呈现超线性的关系。

作者还通过样例分析进一步证明了deer的有效性。

原始的推理模型在解决问题时倾向于切换思路探索多种解题方法，然而很可能问题的最优解决路径只有一条，在后续的思路中模型会因为犯错而得不到正确答案。

为了验证两个不同结果哪一个正确，模型会进行无休止的自我检查，最终未能给出答案。

但在deer的工作模式下，这一问题得到了有效避免。

论文地址：https://arxiv.org/abs/2504.15895项目链接：https://github.com/iie-ycx/deer

科技

特斯拉中国宣布：涨价 - 天天要闻

特斯拉中国宣布：涨价

（文/观察者网周盛明编辑/高莘）2025年7月1日，特斯拉中国宣布，Model 3长续航全轮驱动版车型售价上涨1万元，至28.55万元。特斯拉中国在涨价的同时，该车型的续航和加速得到了提升——CLTC续航由713km提升至753km，百公里加速时间由4.4秒提升至3.8秒。值得注意的是，特斯拉Model 3的其他两个版本售价不变。Model 3后轮驱.

07月01日 8943

储能与锂电领域动态频出：巨头竞逐、项目签约与跨界调整并行 - 天天要闻

储能与锂电领域动态频出：巨头竞逐、项目签约与跨界调整并行

【环球网财经综合报道】近期，储能与锂电领域动态不断。阳光电源（300274.SZ）与宁德时代（300750.SZ）围绕第三代储能电芯定义权展开激烈争夺。6月，阳光电源发布搭载684Ah电芯的新款储能系统，电芯由欣旺达供应；宁德时代宣布587Ah电芯于4月投产。当前储能行业处于二代向三代电芯过渡期，二代容量为314Ah，两大阵营分化明...

07月01日 4812

亚马逊CEO：生成式AI或致员工数量减少，但也将带来新机遇 - 天天要闻

亚马逊CEO：生成式AI或致员工数量减少，但也将带来新机遇

【环球网财经综合报道】亚马逊CEO安迪·贾西周一表示，生成式人工智能的快速推出，意味着公司未来或需更少员工完成计算机可处理的工作，如同每次技术转型，一些工作将因自动化而用人减少，但也会有新工作产生。东方IC尽管人工智能会消除部分职位需求，贾西称亚马逊仍会在人工智能、机器人等领域招聘更多员工。不过，本月早...

07月01日 4729

别光看6.98万起！月销不足300台，启辰大V的性价比与品牌你咋选？ - 天天要闻

别光看6.98万起！月销不足300台，启辰大V的性价比与品牌你咋选？

老规矩，开篇先强调一下，念寒我做车评，从不做那种收了钱昧良心去捧烂车，启辰也没有给我钱，所以我只是单纯帮大家看清车，选对车，少走弯路，不做亏心事。

07月01日 9549

国航C909首飞国际商业航线开启国产民机规模化运营新篇章 - 天天要闻

国航C909首飞国际商业航线开启国产民机规模化运营新篇章

人民网北京7月1日电（记者乔雪峰）2025年7月1日上午8点07分，航班号为CA757的C909国产飞机从呼和浩特白塔国际机场起飞，于北京时间10点35分飞抵蒙古国乌兰巴托国际机场，这次执飞既开启....

07月01日 4968

济南两家企业再次上榜全球独角兽！ - 天天要闻

济南两家企业再次上榜全球独角兽！

一济南两家企业再次上榜全球独角兽！ 6月26日，胡润研究院发布《2025全球独角兽榜》，列出了全球成立于2000年之后、价值10亿美元....

07月01日 5990

抖音电商公布虚假宣传专项治理行动最新进展：超500商家、1000名达人被处罚 - 天天要闻

抖音电商公布虚假宣传专项治理行动最新进展：超500商家、1000名达人被处罚

为进一步保障消费者权益，今年5月，抖音电商启动虚假宣传专项治理行动。7月1日，抖音电商公布近期专项治理的最新进展：平台处罚了超1000名因违规宣传损害消费者体验的达人，并对超500个存在商品信息虚假宣传问题的商家进行了严格处置。

07月01日 1820

25万起售的小米YU7，三分钟大定20万台，数据是真的吗？ - 天天要闻

25万起售的小米YU7，三分钟大定20万台，数据是真的吗？

相信这几天小米YU7的火爆程度大家都看到了，这款车发布后开启预定，打开预定通道后不久，小米官方就公布了一个数据，3分钟大定超20万台。没过多久，小米官方又公布了一个更炸裂的数据，小米YU7在1小时内，大定已突破289000万台。

07月01日 1131

邹晖出任格力集团董事长 - 天天要闻

邹晖出任格力集团董事长

本文来源：时代财经珠海格力集团官网更新信息显示，邹晖已正式出任该集团党委书记、董事长。公开资料显示，邹晖于1982年生，本科学历。邹晖曾担任珠海市人大常委会农村农业工作委员会副主任，后转任珠海市国资委副主任。此次调整后，格力集团领导班子为：邹晖担任集团党委书记、董事长，王轶任党委副书记、董事、总裁，吴...

07月01日 4353

【产业互联网周报】阿里合伙人名单最新变动：9人已退出；美团在AI投入超百亿元；黄仁勋：机器人技术是芯片制造商继AI之后的最大机遇 - 天天要闻

【产业互联网周报】阿里合伙人名单最新变动：9人已退出；美团在AI投入超百亿元；黄仁勋：机器人技术是芯片制造商继AI之后的最大机遇

图片系AI生成【产业互联网周报是由钛媒体TMTpost发布的特色产品，将整合本周最重要的企业级服务、云计算、大数据领域的前沿趋势、重磅政策及行研报告。】国内资讯北京经信局：北京累计备案上线大模型132款，全国占比35%在2025全球数字经济大会新闻发布会上，北京市经济和信息化局党组成员、副局长、新闻发言人刘维亮表示，...

07月01日 8306