大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力

2025年05月31日21:52:03 科技 1336


孫子兵法有云:「故其疾如風,其徐如林」,意指在行進迅速時,如狂風飛旋;而在行進從容時,如森林徐徐展開。同樣,對於大模型,我們也希望其面對簡單問題時能減少思考內容,快速輸出答案。而當面對困難問題,其可以進行詳盡的思考分析,保證輸出的準確性。


傳統大模型面臨二者不可兼得的困境 —— 快思考面對複雜任務顯得力不從心,而深度思考面對簡單問題經常輸出冗餘 token。為此,華為盤古團隊創新性地提出 盤古 Em b edd ed 模型,在多個領域實現了高效精準推理。


基於昇騰 NPU,盤古 Embedded 採用雙系統認知架構,在一個模型中集成 「 快思考 」 與 「 慢思考 」 雙推理模式,並通過兩階段訓練及多源動態獎勵系統,實現了推理效率與精度的協同提升。


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞


  • 論文標題:Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition

  • 報告地址:https://arxiv.org/abs/2505.22375


序言


大模型推理長期受制於兩大矛盾:長鏈條深度思考與低時延反饋。


為了解決這個問題,基於昇騰 NPU(Ascend Neural Processing Unit)算力,華為盤古團隊提出具備靈活切換快慢思考能力的盤古 Embedded 模型。


該模型由兩階段訓練框架得到:


在階段 1 中,模型通過迭代式蒸餾,結合訓練過程中的模型合併,以高效地聚合互補知識。RL 過程由多源指導自適應獎勵系統(MARS)指導,該系統使用確定性指標和輕量級 LLM 評估器為數學任務、編碼任務和通用任務生成動態的、特定於任務的獎勵信號。


在階段 2 中,通過雙系統框架賦予模型用於簡單任務的 「快」 模式和用於困難任務的的 「慢」 模式。該框架提供了用戶控制的手動切換以及問題難度感知的自動切換,以取得推理效率和推理深度的動態平衡。盤古 Embedded 實現了在統一的模型架構中融合快慢思考能力,為開發強大而實用的語言模型指明了方向。


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞

昇騰親和的快慢思考融合架構:從單推理進化到雙推理


問題背景


當前主流的語言模型基於強化學習等策略實現了複雜推理,在數學和代碼基準上取得了驚人的成績。但是通常存在過度思考的問題,龐大的計算開銷限制了其更廣泛的部署應用,尤其是在資源受限的端側設備上。


基模型構建


為了系統性地解決上述問題,華為團隊在這項工作中提出了 7B 參數量的盤古 Embedded,該模型同時具備快慢思考能力。對於預訓練數據與分詞器,與該團隊之前發佈的盤古 Ultra 保持一致。對於後訓練數據,引入了推理和非推理多種任務,並通過先驗過濾和多樣性檢驗,確保了訓練數據的質量和多樣性。


在訓練策略上,團隊提出了基於 模型感知型迭代蒸餾(Model-aware Iterative Distillation) 的 SFT 方案。這種方法不僅能夠動態選擇與模型當前能力相匹配的數據樣本進行訓練,還能通過訓練過程中的模型合併策略保留訓練早期的知識,從而實現性能的持續提升。具體細節如下:


  • 數據合成與驗證 :教師模型先為初始數據池中的問題生成答案,構建初始蒸餾數據集,並對其進行雙重數據驗證,包括規則驗證和模型驗證,以確保數據質量。

  • 模型感知型數據難度評估 :對於每個數據樣本,基於學生模型對輸入的 k 次響應與真實答案的匹配情況,計算出數據複雜度分數,以此衡量數據樣本的難易程度。

  • 迭代訓練 與動態數 據選擇 :在每次迭代中,根據學生模型的當前能力,選擇具有適當複雜度的數據進行訓練,以確保訓練過程的數據難度適當。

  • 訓練迭代中的模型合併 :通過計算當前迭代得到的 N 個檢查點的平均參數差異,並將其應用到前一次迭代的合併模型參數上,實現跨迭代的知識整合,避免知識遺忘,提升模型的穩定性和泛化能力。


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞


模型感知型迭代蒸餾整體架構


重複輸出自修正


為了實現重複輸出自修正,團隊引入了 局部 n-gram 重複檢測 顯式 prompt 注入 。其中,前者是在限定窗口內進行 n-gram 比較,以低計算量有效檢測重複 token。後者則是通過顯式注入特定的 prompt,引導模型自主脫離重複輸出。


該方案可有效避免生成長篇連貫文本時的內容重複問題,確保輸出結果的高質量。


多源自適應獎勵系統與課程數據混合策略


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞

多源自適應獎勵系統流程


在強化學習階段,盤古 Embedded 採用了 多源自 適應獎勵 系統(MARS) ,該系統融合了正確獎勵、偏好獎勵和其他獎勵三部分,保證了模型輸出的穩定性和結構完整性。


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞

課程數據混合策略


同時,在強化學習階段,團隊還採用了 課程學習策略 ,通過評估每個數據樣本對於當前策略的複雜性,將不同難度的樣本組合逐步反饋給模型訓練,有助於實現高效且穩定的策略更新。


基於昇騰集群的 RL 基礎架構


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞

基於昇騰集群的 RL 基礎架構


為了實現基於昇騰的大規模 RL 訓練,團隊還設計了針對昇騰優化的高效可擴展框架。


首先,通過結合 延時同步並行(Stale Synchronous Parallel)調度器 分佈式優先級數據隊列 ,該團隊解決了大規模 RL 中的協調瓶頸問題,實現了系統吞吐量的顯著提升。在 128 個節點的昇騰集群上,相較於完全同步的基線,該框架可減少 30% 的設備空閑時間,同時保持訓練的穩定性。


其次,通過主機和設備之間的 自適應權重調整 ,實現了在訓練和推理管道之間的模型參數無縫共享。相比於孤立的訓練和推理部署,該方法可將吞吐量提升近 2 倍。


最後,通過 面向昇騰的 vLLM 推理優化 ,降低批處理序列之間的延遲方差,從而保證在大規模批處理解碼期間的高吞吐量。


快慢思考雙系統認知結構


受認知心理學中雙過程理論的啟發,盤古 Embedded 提出 雙系 統認知 架構 ,使得模型同時具備快思考(System 1)與慢思考(System 2)兩種思維能力。


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞


三種不同的思考模式:(a) 傳統的推理模型,默認慢思考。(b) 手動切換,允許用戶手動調整快思考(System 1)與慢思考(System 2)模式。(c) 自適應切換,模型將基於任務複雜度自動切換快慢思考。


首先,團隊實現了手動切換功能,允許用戶通過給定的 meta prompt 來指定模型的認知模式,例如 META_PROMPT: system 1 和 META_PROMPT: system 2,分別指代模型採用快思考模式與慢思考模式。這種特殊的 meta prompt 獨立於 system prompt,可在避免干擾預期功能的情況下顯式指定模型的快慢思考模式。


為了將快慢思考兩種不同的能力灌輸給模型,團隊採用了融合訓練的方式:基於已經訓練好的一階段慢思考模型,輔以快慢思考混合數據進行訓練。


  1. 慢思考數據:繼續訓練部分已經掌握的慢思考數據,避免可能出現的遺忘;

  2. 快思考數據:引入新的快思考數據(直接輸出答案,或者非常短的 CoT)。


在此基礎上,分別添加 「System 2」 和 「System 1」 指令,這種訓練方式使得模型保留了深度推理能力的同時,能夠學習到快速思考的能力,並可以基於用戶的指令熟練地切換兩種模式。


此外,團隊還提出新穎的 自適應切換 功能,能讓模型根據任務的難度自動選擇快慢思考。


以數學任務為例:首先判定問題的難易程度 —— 這會用到大模型評估問題的計算複雜度 大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞 與思考複雜度 大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞 ,其中前者主要關注回答中所需要的計算量,如數值計算和符號計算,後者則關注推理步驟的數量,更多的步驟意味着更高的思考複雜度。當 大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞 大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞 時,問題會被分類為簡單,其餘則為困難。對於簡單的問題,採用擅長快思考能力的模型生成答案,並採樣正確的回答;而對於困難的問題,採用具備慢思考能力的模型來解答。最終,經由困難與簡單樣本構建的快慢混合的數據集補充後訓練,可實現很好的自適應快慢切換的能力。


模型能力


通用評測榜單


盤古 Embedded-7B 與 Qwen3-8B、GLM-4-9B 和 Nemotron-Nano-8B 的主要對比詳見下表。


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞

不同模型在通用領域基準測試的能力對比。盤古 Embedded 的模型參數量級為 7B。「Nothinking (system1)」 和 「Thinking (system2)」 分別對應其快思考和慢思考模式。† 表示結果來自模型官方的報告。每個數據集的最佳結果以粗體顯示。


可以看到,在慢思考和快思考模型式下,盤古 Embedded 在多項基準測試中均表現出一流的水準。


在使用 「慢思考」 模式時,盤古 Embedded 在多個推理密集型基準測試中表現出領先能力。在使用可提高推理效率的 「快思考」 模式時,盤古 Embedded 仍具有很強的競爭力。


行業垂域能力拓展性


在通用的推理能力增強之外,團隊也探索了在垂域任務的表現。以法律行業為例,團隊基於行業語料,通過合成思維過程數據、多種類型數據配比、拒絕採樣、蒸餾等技術提升模型的法律專業能力。


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞

不同推理模型在 LawBench 基準上的能力比較


在 LawBench 為代表的法律任務中,在使用了法律領域的長思考數據繼續訓練之後,盤古 Embedded 在 17 項子任務上的表現有了進一步提高,平均準確率達到 54.59%。這些結果表明,在強大的通用推理模型基礎上,通過有針對性的繼續後訓練,還有很大的空間可以提升在專業任務上的能力水平。


自適應快慢思考模式切換


大模型推理的「左右腦」革命!華為盤古Embedded憑昇騰之力 - 天天要聞

盤古 Embedded(自適應)在 MATH-500 基準測試中自主激活慢思考模式的比例分析(問題按難度分類)。說明該模型能夠根據任務複雜程度自動調整推理深度。


團隊在數學測試基準上分析了模型自動採用慢思考的問題比例。結果表明,這一比例隨任務複雜程度的不同而變化:對於相對簡單的 GSM8K 數據集,慢思考模式的使用率低至 14.56%。而在 MATH500 基準測試中,如上圖所示,使用慢思考模式的趨勢隨着問題難度的增加而單調增加。這表明,盤古 Embedded 能夠有效地自動分配推理資源,以取得計算效率和推理準確性的平衡。


總結


華為盤古團隊推出基於昇騰 NPU 開發的高效語言模型盤古 Embedded,其在同規格模型中實現了精度和速度的平衡。


該研究的核心創新在於提出的兩階段訓練框架:第一階段通過迭代蒸餾構建魯棒的基礎推理器,關鍵技術包括模型型感知數據複雜度篩選、訓練迭代間檢查點融合實現知識鞏固,以及採用延遲容忍調度器與多源自適應獎勵系統優化的大規模強化學習。第二階段創新性地賦予盤古 Embedded 雙系統快慢思考能力,兼具用戶手動切換與自適應模式選擇功能,動態平衡推理深度與計算效率,並配合重複自修正機制提升生成質量。


本研究為開發效率更高、性能更強的語言模型提供了新的路徑探索。


科技分類資訊推薦

小米高管稱優秀企業不怕小米,淘汰的都是劣質企業 - 天天要聞

小米高管稱優秀企業不怕小米,淘汰的都是劣質企業

6月1日,有博主稱小米汽車今年銷量預計 40 萬左右,明年 60 萬,後年達到80至100 萬,其認為明年和後年才是小米最難的時候。對此,小米產業投資部合伙人潘九堂評論稱,真正優秀的企業不怕甚至歡迎小米,小米的 「鯰魚效應」 讓手機和 IOT 領域的優秀企業更以用戶為中心,做好產品,淘汰的都是劣質企業。在汽車領域,小米選擇...
《與輝同行》6月1日兒童節銷售出爐!GMV:3300萬+漲粉:2.6萬+ - 天天要聞

《與輝同行》6月1日兒童節銷售出爐!GMV:3300萬+漲粉:2.6萬+

6月1日,一向「以文化人」的董宇輝再一次用行動證明:在全民娛樂與理性消費並存的今天,一個帶着書卷氣的主播,也可以在喧囂的直播江湖中掀起不小的浪花。就在「兒童節」這個本不屬於成年世界的節日里,他的直播間卻迎來了1538.7萬+人圍觀,單日銷售
星紀魅族接續發力618 魅族 Note 16 熱門型號補貨開售 - 天天要聞

星紀魅族接續發力618 魅族 Note 16 熱門型號補貨開售

備受矚目的魅族 Note 16 系列,首批新機大部分版本目前已在多平台迅速售罄。618 期間,星紀魅族加大馬力、全力備貨,這款同價位段的性能標杆手機,於 5 月 30 日 10:00 在魅族商城和魅族線上授權店補貨開售,為消費者帶來更多驚喜。而市場對於魅族 Note 16 補貨開售的反響依舊非常熱烈。據京東手機競速排行榜顯示,魅族 No...