DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制

2025年05月12日15:30:11 科技 7372

deer團隊 投稿

量子位 | 公眾號 qbitai

長思維鏈讓大模型具備了推理能力,但如果過度思考,就有可能成為負擔。

華為聯合中科院信工所提出了一種新的模式,讓大模型提前終止思考來避免這一問題。

利用這種方法,無需額外訓練,就可以讓大模型的精度和效率同時提升

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

這種方式名為deer,也就是動態提前退出推理(dynamic early exit in reasoning)的簡稱。

其核心在於找到推理信息質量下降之前的臨界點,並在臨界點及時讓大模型中斷推理。

結果在多個推理基準中,deer在deepseek系列推理llm上始終有效,將思維鏈生成長度平均減少31%到43%,同時將準確率提高1.7%到5.7%。

截至目前,deer已在qwq、qwen3、nemotron等更多推理模型和11個評測集上被驗證持續有效。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

停止推理的臨界點,需要動態規劃

直觀上,隨著思維鏈中的推理路徑數量的增加,生成結論時可參考的信息也會更多。

如果能夠識別出推理信息變得剛好足夠的臨界點(稱為珍珠推理,pearl reasoning),並迫使模型在此點停止進一步思考並直接輸出結論,就可以同時實現準確率和效率。

這項研究的關鍵,就是在生成長思維鏈過程中找到這樣的珍珠

為了驗證這一動機,作者在每個推理路徑的轉換點強制模型從思考切換到直接生成答案。如果得到的答案是正確的,則驗證了這種珍珠推理的存在。

如下圖所示,大約75%的樣本確實包含這樣的珍珠(即提前退出依然可以生成正確答案),甚至有36.7%的樣本只需不到一半的原始推理路徑就能得到正確答案。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

因此,如何從長思維鏈中找到pearl reasoning是實現高效推理的一個極具潛力和價值的課題。

為此,作者在先導實驗中詳細分析了推理模型存在的過度思考問題,並探索了靜態早期退出對模型性能的影響,所有實驗都是在deepseek-r1-ditil-qwen-14b上進行的。

作者首先讓模型在測試集上執行完整的推理(包括前後think標籤之間的思維鏈和結論),然後保留完整的思維鏈並根據思路轉換點(如「wait」等詞前後存在思路轉換)將其劃分為思維塊。

對於這些樣本,作者保留了不同比例(20%-90%)的思維塊,並在每個截斷處附加一個思維結束標記分隔符,以強制終止思維鏈過程並生成最終結論。

定量結果表明,在僅使用20%的推理步驟就提前退出的靜態設定下,對於math-500,有60.8%的正確回答樣本依然能保持正確;

對於較難的gpqa,仍然有35.1%樣本可以保持正確。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

下圖說明了在不同的位置提前退出可以糾正的錯誤答案的不同比例。

對於math數據集,當以40%的推理步驟退出時達到最高的糾錯率;而對於gpqa數據集,當以50%的推理步驟退出時達到最佳糾錯率。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

似乎每個問題的最佳早期退出點都不盡相同,並且與問題本身的固有難度密切相關。

因此,依賴基於固定啟發式的靜態提前退出策略是次優的,作者以此為動機設計了動態提前退出機制,通過尋找珍珠推理進一步糾錯提高準確性,同時減少生成的長度。

那麼,deer具體是如何工作的呢?

三步判斷退出推理時機

deer將模型在推理中切換思維鏈的關鍵時刻視為提前退出的時機,並促使大模型在這些時刻停止思考並生成嘗試性答案。

每個試驗答案的置信度,是推理中提前退出的決策參考。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

具體來說,deer方法包含三個動作——推理轉換監控(reasoning transition monitor)、試驗性答案誘導(trial answer inducer)和置信度評價(confidence evaluation)

推理轉換監控是受budget force技術的啟發,將諸如「wait」「alternatively」這樣的單詞識別為思路轉換的臨界點並監控其出現。

當思路轉換點出現時,將觸發答案誘導的動作——作者將「wait」替換為類似於「final answer:」的標記,以誘導模型立即生成驗證性答案。

這將用於第三個動作,也就是置信度評價——

  • 如果置信度足夠高,則將模型設置為停止進一步思考,並基於已經生成的思維鏈直接生成結論;

  • 否則,撤銷答案誘導的動作,沿原路徑繼續推理。

下圖展示了deer對驗證性答案的置信度確實能夠反映出已生成的思維鏈是否足夠支撐大模型生成最終答案的信息量。

可以觀察到,當模型的推理過程不完整或有缺陷時,試驗答案往往表現出明顯較低的置信度;相反,當推理全面且邏輯合理時,模型生成的答案具有更高的置信度。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

直覺上,deer中的答案誘導和置信度評價的計算在推理過程中引入了額外的延遲,特別是對於測試答案仍然很長的代碼生成任務,這降低了通過縮短思維鏈序列而獲得的效率增益。

為了解決這個問題,作者提出了分支並行加速(branch-parallel acceleration)策略,以進一步解決這些效率限制:

  • 多個分支線性化為單個序列,並使用專門的causal attention mask並行生成;

  • 通過基於置信度的剪枝實現動態kv緩存管理。該策略允許trail answer inducer和confidence evaluation和正在進行的推理鏈生成之間的時間重疊,從而優化整體推理效率。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

另外,關於端到端時延的更多討論將在即將發布的版本中加入。

讓推理模型更快更強

為了驗證deer的表現,作者在6個挑戰性的推理benchmark上進行了測評,其中包含3個數學推理任務(math-500、amc 2023、aime 2024)、一個科學推理任務(gpqa diamond)、兩個代碼生成任務(humaneval、bigcodebench)

評測指標選用了準確率和生成長度兩個維度,分別衡量精度和效率。實驗選用了不同規模的deepseek-r1-distill-qwen系列模型(1.5b, 7b, 14b, 32b)

實驗結果表明,deer在所有規模的模型和評測集上都展現出了驚人的效果。

數值上,deer相比於常規的long cot方法準確率平均提升了1.7到5.7個點,同時生成長度縮短了31%到43%。

在小規模的模型上,deer對於math-500和amc 2023兩個難度稍低的benchmark提升更顯著。

在大規模的模型上,deer對於aime 2024和gpqa兩個更具挑戰性的benchmark提升更顯著。

尤其是當模型的推理能力與問題難度匹配時,作者的方法更加有效。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

在humaneval和bigcodebench兩個programming測試集上,作者的方法實現了平均減少64.9%的生成長度,而pass@1提高了2.1個點,並對0.95附近的閾值表現魯棒,不會有顯著波動。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

為了進一步驗證deer對於端到端推理效率的提升,作者基於huggingface transformers在math和amc兩個數據集上測試了平均每個樣本的推理時延。

結果表明,在未使用作者提出的分支並行解碼加速的情況下,deer就已經減少了43.4%到47.3%的推理時延。

而採用了分支並行解碼後,推理時延的下降比例和序列長度的下降比例呈現超線性的關係。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

作者還通過樣例分析進一步證明了deer的有效性。

原始的推理模型在解決問題時傾向於切換思路探索多種解題方法,然而很可能問題的最優解決路徑只有一條,在後續的思路中模型會因為犯錯而得不到正確答案。

為了驗證兩個不同結果哪一個正確,模型會進行無休止的自我檢查,最終未能給出答案。

但在deer的工作模式下,這一問題得到了有效避免。

DeepSeek精度效率雙提升,華為信工所提出思維鏈「提前退出」機制 - 天天要聞

論文地址:https://arxiv.org/abs/2504.15895項目鏈接:https://github.com/iie-ycx/deer

科技分類資訊推薦

蘋果visionOS 26發布:全新3D小組件可固定於環境中 - 天天要聞

蘋果visionOS 26發布:全新3D小組件可固定於環境中

IT之家 6 月 10 日消息,在目前正在進行的 WWDC25 中,蘋果公布了 visionOS 26。據蘋果介紹,visionOS 26 帶來全新 3D 小組件功能,用戶可以將小組件固定在環境中。此外,visionOS 26 還新增空間場景 / 空間畫廊功能,也就是利用 LiDAR 感測器打造 3D 場景,讓用戶置身其中,並改進了用戶的「自影像」3D 頭像
蘋果 iOS 26 系統更新正式發布:全新液態玻璃設計、AI 功能改進 - 天天要聞

蘋果 iOS 26 系統更新正式發布:全新液態玻璃設計、AI 功能改進

IT之家 6 月 10 日消息,蘋果今日正式發布了 iOS 26 更新,系統命名跟上年份,帶來設計、功能、AI 等多個方面的改進,IT之家匯總如下:全新外觀新設計使應用和系統體驗更加富有表現力和令人愉悅,同時保持了 iOS 的即時熟悉感。它採用 Liquid Glass(液態玻璃)—— 一種新的半透明材質,能夠反射和折射周圍環境,使內容更...
iOS 26升級視覺智能:AI識別屏幕內容,可搜索同款商品等 - 天天要聞

iOS 26升級視覺智能:AI識別屏幕內容,可搜索同款商品等

IT之家 6 月 10 日消息,在今天舉辦的 WWDC 2025 主題演講中,蘋果宣布升級視覺智能(Visual Intelligence),讓用戶能夠搜索並操作 iPhone 應用中顯示的任何內容。IT之家此前曾分享視覺智能的初步上手體驗,主要通過相機識別現實世界中的物體,而在本次更新中,該功能可以直接分析屏幕上的內容。用戶可以針對屏幕顯示的圖...
iPadOS 26登場:全新多任務處理/文件App比擬macOS - 天天要聞

iPadOS 26登場:全新多任務處理/文件App比擬macOS

IT之家 6 月 10 日消息,在目前正在進行的 WWDC25 中,蘋果公布了 iPadOS 26。iPadOS 26 集中於多任務處理(相應功能支持 iPad 全系家族),帶來了類似 macOS 的左上角「紅綠燈」,用戶打開 App 時應用首先會全屏顯示,但用戶也可以通過應用右下角來調整應用窗口大小,在連接鍵盤後,還支持通過滑鼠來直觀拖拽界面,點擊「...
蘋果預告 AirPods 新功能:錄音室級錄音 + 相機遙控 - 天天要聞

蘋果預告 AirPods 新功能:錄音室級錄音 + 相機遙控

IT之家 6 月 10 日消息,在今天召開的 WWDC 2025 全球開發者大會上,蘋果為 AirPods 4、AirPods 4(支持主動降噪 ANC)以及 AirPods Pro 2 耳機,預告了音頻錄製和相機遙控功能。錄音室級別音頻錄製蘋果公司表示無論是採訪者、播客主播還是歌手,AirPods 用戶都能隨時隨地錄製錄音室級別的高品質音頻。IT之家援引博
這下慘了,特朗普的大棋下不下去了 - 天天要聞

這下慘了,特朗普的大棋下不下去了

特朗普的真正秘密是什麼?今天通過3個故事來全面解構! 壞土豆 作品首發於頭條號 一個壞土豆陪我的國一起逆襲每次我寫時評的時候,總有人說人家馬斯克是世界首富,不比你聰明,不比你眼光長遠。人家特朗普,堂堂美國總統,不比你深謀遠慮,你看不懂是因為
蘋果發布Foundation模型框架 - 天天要聞

蘋果發布Foundation模型框架

IT之家 6 月 10 日消息,正在舉行的 WWDC 2025 開發者大會上,蘋果公司以 Apple Intelligence 為開場,宣布推出 Foundation Models 框架。
阿爾特汽車進軍智能機器人領域,多款產品研發中 - 天天要聞

阿爾特汽車進軍智能機器人領域,多款產品研發中

IT之家 6 月 10 日消息,阿爾特汽車 6 月 8 日宣布正式進軍機器人產業,該公司最新戰略布局取得突破性進展 —— 由阿爾特聯合雲視科技、上海乙蜂共同投資的北京阿爾瑞特智能機器人科技有限公司(以下簡稱阿爾瑞特)已完成註冊並舉行成立慶典。阿爾特機器人業務由阿爾特董事長宣奇武親自挂帥,並由思科系統前高管張毅軍等具...