DeepSeek精度效率雙提升，華為信工所提出思維鏈「提前退出」機制

2025年05月12日15:30:11 科技 7372

deer團隊投稿
量子位 | 公眾號 qbitai

長思維鏈讓大模型具備了推理能力，但如果過度思考，就有可能成為負擔。

華為聯合中科院信工所提出了一種新的模式，讓大模型提前終止思考來避免這一問題。

利用這種方法，無需額外訓練，就可以讓大模型的精度和效率同時提升。

這種方式名為deer，也就是動態提前退出推理（dynamic early exit in reasoning）的簡稱。

其核心在於找到推理信息質量下降之前的臨界點，並在臨界點及時讓大模型中斷推理。

結果在多個推理基準中，deer在deepseek系列推理llm上始終有效，將思維鏈生成長度平均減少31%到43%，同時將準確率提高1.7%到5.7%。

截至目前，deer已在qwq、qwen3、nemotron等更多推理模型和11個評測集上被驗證持續有效。

停止推理的臨界點，需要動態規劃

直觀上，隨着思維鏈中的推理路徑數量的增加，生成結論時可參考的信息也會更多。

如果能夠識別出推理信息變得剛好足夠的臨界點（稱為珍珠推理，pearl reasoning），並迫使模型在此點停止進一步思考並直接輸出結論，就可以同時實現準確率和效率。

這項研究的關鍵，就是在生成長思維鏈過程中找到這樣的珍珠。

為了驗證這一動機，作者在每個推理路徑的轉換點強制模型從思考切換到直接生成答案。如果得到的答案是正確的，則驗證了這種珍珠推理的存在。

如下圖所示，大約75%的樣本確實包含這樣的珍珠（即提前退出依然可以生成正確答案），甚至有36.7%的樣本只需不到一半的原始推理路徑就能得到正確答案。

因此，如何從長思維鏈中找到pearl reasoning是實現高效推理的一個極具潛力和價值的課題。

為此，作者在先導實驗中詳細分析了推理模型存在的過度思考問題，並探索了靜態早期退出對模型性能的影響，所有實驗都是在deepseek-r1-ditil-qwen-14b上進行的。

作者首先讓模型在測試集上執行完整的推理（包括前後think標籤之間的思維鏈和結論），然後保留完整的思維鏈並根據思路轉換點（如「wait」等詞前後存在思路轉換）將其劃分為思維塊。

對於這些樣本，作者保留了不同比例（20%-90%）的思維塊，並在每個截斷處附加一個思維結束標記分隔符，以強制終止思維鏈過程並生成最終結論。

定量結果表明，在僅使用20%的推理步驟就提前退出的靜態設定下，對於math-500，有60.8%的正確回答樣本依然能保持正確；

對於較難的gpqa，仍然有35.1%樣本可以保持正確。

下圖說明了在不同的位置提前退出可以糾正的錯誤答案的不同比例。

對於math數據集，當以40%的推理步驟退出時達到最高的糾錯率；而對於gpqa數據集，當以50%的推理步驟退出時達到最佳糾錯率。

似乎每個問題的最佳早期退出點都不盡相同，並且與問題本身的固有難度密切相關。

因此，依賴基於固定啟發式的靜態提前退出策略是次優的，作者以此為動機設計了動態提前退出機制，通過尋找珍珠推理進一步糾錯提高準確性，同時減少生成的長度。

那麼，deer具體是如何工作的呢？

三步判斷退出推理時機

deer將模型在推理中切換思維鏈的關鍵時刻視為提前退出的時機，並促使大模型在這些時刻停止思考並生成嘗試性答案。

每個試驗答案的置信度，是推理中提前退出的決策參考。

具體來說，deer方法包含三個動作——推理轉換監控（reasoning transition monitor）、試驗性答案誘導（trial answer inducer）和置信度評價（confidence evaluation）。

推理轉換監控是受budget force技術的啟發，將諸如「wait」「alternatively」這樣的單詞識別為思路轉換的臨界點並監控其出現。

當思路轉換點出現時，將觸發答案誘導的動作——作者將「wait」替換為類似於「final answer:」的標記，以誘導模型立即生成驗證性答案。

這將用於第三個動作，也就是置信度評價——

如果置信度足夠高，則將模型設置為停止進一步思考，並基於已經生成的思維鏈直接生成結論；
否則，撤銷答案誘導的動作，沿原路徑繼續推理。

下圖展示了deer對驗證性答案的置信度確實能夠反映出已生成的思維鏈是否足夠支撐大模型生成最終答案的信息量。

可以觀察到，當模型的推理過程不完整或有缺陷時，試驗答案往往表現出明顯較低的置信度；相反，當推理全面且邏輯合理時，模型生成的答案具有更高的置信度。

直覺上，deer中的答案誘導和置信度評價的計算在推理過程中引入了額外的延遲，特別是對於測試答案仍然很長的代碼生成任務，這降低了通過縮短思維鏈序列而獲得的效率增益。

為了解決這個問題，作者提出了分支並行加速（branch-parallel acceleration）策略，以進一步解決這些效率限制：

多個分支線性化為單個序列，並使用專門的causal attention mask並行生成；
通過基於置信度的剪枝實現動態kv緩存管理。該策略允許trail answer inducer和confidence evaluation和正在進行的推理鏈生成之間的時間重疊，從而優化整體推理效率。

另外，關於端到端時延的更多討論將在即將發佈的版本中加入。

讓推理模型更快更強

為了驗證deer的表現，作者在6個挑戰性的推理benchmark上進行了測評，其中包含3個數學推理任務（math-500、amc 2023、aime 2024）、一個科學推理任務（gpqa diamond）、兩個代碼生成任務（humaneval、bigcodebench）。

評測指標選用了準確率和生成長度兩個維度，分別衡量精度和效率。實驗選用了不同規模的deepseek-r1-distill-qwen系列模型（1.5b, 7b, 14b, 32b）。

實驗結果表明，deer在所有規模的模型和評測集上都展現出了驚人的效果。

數值上，deer相比於常規的long cot方法準確率平均提升了1.7到5.7個點，同時生成長度縮短了31%到43%。

在小規模的模型上，deer對於math-500和amc 2023兩個難度稍低的benchmark提升更顯著。

在大規模的模型上，deer對於aime 2024和gpqa兩個更具挑戰性的benchmark提升更顯著。

尤其是當模型的推理能力與問題難度匹配時，作者的方法更加有效。

在humaneval和bigcodebench兩個programming測試集上，作者的方法實現了平均減少64.9%的生成長度，而pass@1提高了2.1個點，並對0.95附近的閾值表現魯棒，不會有顯著波動。

為了進一步驗證deer對於端到端推理效率的提升，作者基於huggingface transformers在math和amc兩個數據集上測試了平均每個樣本的推理時延。

結果表明，在未使用作者提出的分支並行解碼加速的情況下，deer就已經減少了43.4%到47.3%的推理時延。

而採用了分支並行解碼後，推理時延的下降比例和序列長度的下降比例呈現超線性的關係。

作者還通過樣例分析進一步證明了deer的有效性。

原始的推理模型在解決問題時傾向於切換思路探索多種解題方法，然而很可能問題的最優解決路徑只有一條，在後續的思路中模型會因為犯錯而得不到正確答案。

為了驗證兩個不同結果哪一個正確，模型會進行無休止的自我檢查，最終未能給出答案。

但在deer的工作模式下，這一問題得到了有效避免。

論文地址：https://arxiv.org/abs/2504.15895項目鏈接：https://github.com/iie-ycx/deer

科技

從聊天機械人到協作夥伴：AI智能體如何重塑企業工作 - 天天要聞

從聊天機械人到協作夥伴：AI智能體如何重塑企業工作

Scott White至今仍對人工智能從新奇技術轉變為真正工作夥伴的速度感到驚嘆。僅僅一年多前，這位Anthropic公司Claude AI產品負責人目睹了早期AI編程工具甚至無法完成一行代碼的窘境。如今，儘管並非專業程序員，他卻能親自構建

07月01日 1078

小米 16 系列迎最新爆料，Pro 系列鏡頭模組大改，橫向延伸全尺寸設計 - 天天要聞

小米 16 系列迎最新爆料，Pro 系列鏡頭模組大改，橫向延伸全尺寸設計

近日，包括數碼閑聊站在內等多個消息源，就下一代旗艦新機紛紛進行了最新爆料，其中小米 16 系列也在近日迎來了最新消息。根據最新爆料來看，小米 16 系列將會在以往的標準版、Pro 版、Ultra 的基礎上新增一款 Pro Max 型號。但一一對應來看，新款的小米 16 Pro 即對標標準版 , 為大家熟悉的 6.3 英寸小尺寸旗艦機型。而 1...

07月01日 6874

魅族 22 系列手機本月到來，提供全新開模小尺寸旗艦版本 - 天天要聞

魅族 22 系列手機本月到來，提供全新開模小尺寸旗艦版本

伴隨着時間來到 7 月，各大手機廠商的新機更新計劃有所放緩，不過根據多方爆料來看，「小廠代表」星紀魅族旗下的魅族 22 系列將會在本月與大家見面。目前魅族 22 系列仍然十分「神秘」，欠缺主要的配置爆料與外觀圖片作為參考。但根據部分什麼爆料者的消息來看，魅族 22 系列將會全新開模，並提供小尺寸旗艦版本可供選擇...

07月01日 2203

vivo X300 Pro 更多細節曝光，大 R 角直面屏，新款大底主攝方案加持 - 天天要聞

vivo X300 Pro 更多細節曝光，大 R 角直面屏，新款大底主攝方案加持

今天數碼博主數碼閑聊站在與網友互動中，透露了一款搭載聯發科天璣 9500 的「大杯」工程機的最新進展。參考爆料內容與評論區互動來看，預計為 vivo X300 Pro。除搭載聯發科天璣 9500 外，據悉該機一大變化之處在於屏幕部分，根據最新消息來看將會搭載一塊大 R 角直屏，不再採用曲面屏或微曲面屏設計。而這也將成為下一代...

07月01日 4059

35mm之眼重構皇城美學：努比亞Z70S Ultra攝影師版瀋陽故宮實戰錄 - 天天要聞

35mm之眼重構皇城美學：努比亞Z70S Ultra攝影師版瀋陽故宮實戰錄

35mm之眼重構皇城美學：努比亞Z70S Ultra攝影師版瀋陽故宮實戰錄，最近一直在玩努比亞Z70S Ultra攝影師版，這次不扯其他的，只單純的聊一下影像、拍攝和實際使用體驗，看看這款機器，到底好在哪？又有哪些需要提高和改進的呢？

07月01日 1433

數據驅動，柔性智能建造平台助力高效管理 - 天天要聞

數據驅動，柔性智能建造平台助力高效管理

長沙晚報掌上長沙7月1日訊（全媒體記者劉嘉）6月30日，由長沙市智能建造產業鏈推進辦公室與中建五局三公司聯合承辦的「創新驅動智建未來」科技活動舉行。該活動不僅展示了長沙在智能建造領域的創新成果，也為行業高質量發展提供了可複製的實踐經驗。

07月01日 1302

IPO研究 | 全球3D打印在航空航天和國防市場的價值預計2030年將達86.6億美元 - 天天要聞

IPO研究 | 全球3D打印在航空航天和國防市場的價值預計2030年將達86.6億美元

瑞財經王敏 6月30日，杭州易加三維增材技術股份有限公司（以下簡稱「易加增材」）科創板IPO獲受理，保薦機構為中信證券，保薦代表人為董超、余啟東，會計師事務所為天健。

07月01日 1450

6月交付情況匯總，零跑領跑，小米下滑，小鵬保持高位！ - 天天要聞

6月交付情況匯總，零跑領跑，小米下滑，小鵬保持高位！

7月1日，各大車企交出了2025年6月份交付量的成績單，新的排名也隨之出爐。在這裡劃一下重點：零跑汽車6月交付48,006台，創歷史新高；小鵬汽車6月共交付新車34,611台，同比增長224%，連續....

07月01日 3915

以前不敢想，機械革命搭配出4959元的RTX5050本，還有2.5K屏 - 天天要聞

以前不敢想，機械革命搭配出4959元的RTX5050本，還有2.5K屏

最近RTX5050本開始大面積登場，很多消費者也想知道，廠商到底能搭配出什麼樣配置？結果機械革命沒有讓大家失望，搭配出一個6199元的新品，補貼後價格4959元，再一次刷新新顯卡筆記本的價格新低。同時，其配置還不是很潦草，還是很平衡的，讓我們來看看。這款本配置了R9 7845HX處理器，12核心，24線程，台積電5nm工藝，Zen4...

07月01日 8567

中國移動三大核心布局助力南亞東南亞數字經濟新發展 - 天天要聞

中國移動三大核心布局助力南亞東南亞數字經濟新發展

【來源：雲南網】6月30日，由雲南省人民政府和雲南省工業和信息化廳聯合舉辦的面向南亞東南亞數字合作推介會在北京舉行，中國移動副總經理陳懷達出席，中國移動數智化部副總經理陶濤發表主題為《建設跨境數據交易高速公路，服務數字信息大通道建設》的演講

07月01日 1017