大模型推理，得講性價比 - 科技| 天天要聞

2025年06月06日19:03:04 科技 1885

三分之一個世紀前，加拿大學者們提出了經典的MoE模型神經網路結構，在人類探索AI的「石器時代」中，為後世留下了變革的火種。

近十年前，美國矽谷的互聯網巨擎在理論和工程等方面，突破了MoE模型的原始架構，讓這個原本被置於學術高閣的理念，化身成為了隨後AI競爭的導火索。

如今，後發優勢再一次來到了大洋此岸，以華為為代表的中國科技企業，紛紛提出對MoE架構的優化重組方案。尤其是華為的MoGE架構，不僅克服了MoE負載不均衡及效率瓶頸的弊病，還能夠降本增效，便於訓練和部署。

AI之戰遠未終結，但正如在其他領域中「多快好省」的中國產業底色一樣，大模型這棵生於西方長於彼岸的科技樹，也同樣會被東方智慧經手後，進化為更加普適和親切的工具。

近期，虎嗅將打造《華為技術披露集》系列內容，通過一連串的技術報告，首次全面披露相關的技術細節。

希望本系列內容能為業界起到參考價值，也希望更多人能與華為一起，共同打造長期持續的開放協作生態環境，讓昇騰生態在中國茁壯成長。

《華為技術披露集》系列
VOL.12 ：昇騰×盤古

在通往通用人工智慧（AGI）的進程中，混合專家（MoE）模型憑藉動態稀疏計算優勢，成為大模型推理提效的關鍵路徑。華為團隊重磅推出昇騰平台原生設計的Pangu Pro MoE 72B模型，大幅降低計算開銷，並在SuperCLUE千億內模型並列國內第一。通過系統級軟硬協同優化、高性能運算元融合優化、模型原生投機演算法優化，Pangu Pro MoE推理性能提升6~8倍，在昇騰300I Duo上單卡吞吐可達321 tokens/s，實現極致性價比；在昇騰800I A2上更可飆升至1528 tokens/s，全面釋放硬體潛力，打造極致的推理體驗。

技術報告地址：https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/

推理效率拉滿：全鏈路推理系統優化，釋放昇騰澎湃算力

在大模型的分散式推理中，每個計算節點都像一個團隊成員，信息流通、協調協作不可避免。就像一場跨部門的大項目，若每一步都開「全員大會」，溝通成本高、效率低，項目推進自然慢半拍。聰明的做法，是開對會、分好組，精準溝通、各司其職。這正是華為團隊在Pangu Pro MoE大模型推理優化中的靈感來源。

分層混合併行（H2P）：不再「全員大會」，「專人專會」推理才高效

還在用「一刀切」的並行方式處理大模型？就像公司里什麼事都開全員大會，不管你是財務還是研發，全都坐在會議室浪費時間——看似熱鬧，實則低效。

華為團隊另闢蹊徑，靈感來自「專人專會」策略，提出創新性的H2P分層混合併行（Hierarchical & Hybrid Parallelism）。與其讓所有模塊頻繁地「開大會」，不如根據任務特性「分工開小會」，讓每個部分在各自的通信域內中高效執行。

該策略精準匹配模型結構和硬體互聯拓撲特性：Attention模塊採用DP2+TP4並行方案，輕量參數聚焦單CPU內高效通信；Expert模塊針對路由專家的分組與動態負載，採用TP2+EP4策略，實現計算均衡與效率提升；共享專家則以TP8全芯並行，加速稠密計算，全方位激發昇騰平台算力潛能。

H2P策略進一步在Attention模塊引入Reduce-Scatter替代AllReduce，避免數據聚合操作導致後續通信傳輸數據量膨脹，並通過優化AllGather插入位置，降低冗餘向量計算；同時基於分組專家設計，Expert模塊利用全局AllGather高效完成token與專家的動態匹配，結合全局Reduce-Scatter實現路由專家與共享專家的歸一通信。

通過這種「哪類事開哪類會」的智慧分工方式，H2P策略讓每個模塊都在最適合的並行方式下發揮最大潛能，擺脫了傳統「大鍋飯式」並行的性能瓶頸，讓推理效率飛升一大截，Decode吞吐性能相比純TP方案提升33.1%。

圖1：H2P優化方案示意圖

攻克通信瓶頸（TopoComm）：拒絕「冗餘發言」，「言簡意賅」推理才暢通

在大模型推理中，通信就像一場大型數據會議：「會前準備」是靜態開銷，「會中發言」則對應數據傳輸。華為團隊以「提高開會效率」為目標，設計TopoComm優化方案，從會前準備到會中交流環節全方位深度優化集合通信，讓數據傳得快、講得清、效率高。

針對靜態開銷，提出SlimRing演算法，利用Ring鏈路通信對象固定特性，合併相鄰通信步的後同步與前同步操作，同步次數降低35%。針對傳輸耗時，提出NHD演算法，通過拓撲親和的分級通信等效提高鏈路有效帶寬21%；進一步引入INT8 AllGather + FP16 Reduce-Scatter的混合量化通信策略，結合跨芯校準與量化因子復用，實現通信數據壓縮25%，AllGather通信耗時降低39%。

圖2：TopoComm優化方案示意圖

計算&通信融合（DuoStream）：告別「乾等閑耗」，推理「開會幹活」兩不誤

大模型分散式並行推理就像一個協作型項目，需要多卡在通信（開會）與計算（幹活）之間不斷交替執行。高效的團隊往往能在會議中一邊討論、一邊分工執行，真正做到邊「開會」邊「幹活」，從而大大提高整體效率。華為團隊正是藉助這一理念，深入挖掘昇騰平台多流架構的潛力，提出DuoStream運算元級多流融合通算優化方案，實現計算與通信的細粒度並發調度，大幅提升推理計算效率。

針對Pangu Pro MoE模型中Expert模塊通信佔比高的問題，構建GMMRS（GroupedMatmul+Reduce-Scatter）與AGMM（AllGather+Matmul）兩大融合策略，有效克服通信與數據搬運和計算之間的瓶頸，實現關鍵通信路徑的流水掩蓋，進一步釋放模型在昇騰平台上的推理性能。通過這套「邊討論邊幹活」的融合式優化機制，通信與數據搬運和計算協同推進，顯著提升了模型在昇騰平台上的推理效率，最大化釋放硬體資源潛能。

圖3 DuoStream優化方案示意圖

打造六邊形運算元戰隊：單兵作戰到特種部隊，融合運算元釋放昇騰潛能

在大模型推理的算力戰場上，傳統運算元如同各自為戰的「單兵」，每個運算元獨立執行、協作脫節。數據搬運兵（內存訪問）與計算突擊手（矩陣乘）各自為戰，每次任務需反覆傳遞數據（全局內存讀寫），大量兵力浪費在資源協調上（Kernel啟動開銷），導致資源調度低效、內存搬運頻繁，造成大模型推理的「單兵運算元困局」。為終結算力內耗以釋放硬體潛力，華為團隊重構運算元執行範式，打造兩支精銳「融合運算元特種部隊」，MulAttention和SwiftGMM，實現了從資源訪問、計算調度到數據搬運的全鏈路優化，顯著提升推理性能表現。

MulAttention：注意力計算尖刀連，打下推理KV搬運橋頭堡

隨著並發數和序列長度持續增長，Attention計算時延在整網佔比達30%至50%，其中KV緩存搬運佔據了約70%的運算元執行耗時。為此，華為團隊基於昇騰架構打造原生高性能融合運算元——MulAttention。

該運算元圍繞增量推理階段KV數據搬運與計算的高效流水編排開展優化，通過構建KV大包連續搬運優化策略，極大提高了訪存帶寬利用率。同時設計KV預取流水機制，有效降低計算的暴露時延。進一步構建了KV雙循環結構，解耦矩陣與向量計算間數據依賴，緩解指令隊列堵塞同時提高向量計算並行度。最終實現Attention計算加速4.5倍，達成89%以上的數據搬運流水佔用率以及87%的訪存帶寬利用率。

圖4 MulAttention融合運算元優化設計示意圖

SwiftGMM：專家計算突擊隊，閃電速度抵達推理算力戰場

路由專家權重搬運已成為MoE模型端到端時延的核心瓶頸，且其稀疏激活特性導致的負載動態波動進一步放大了性能優化的挑戰。對此，華為團隊面向昇騰平台推出高性能矩陣計算引擎——SwiftGMM。

SwiftGMM引入基於歷史數據的智能分塊緩存策略，通過動態預測並調整最優分塊參數，規避重排開銷；同時根據計算負載強度，動態切換GEMV與GEMM執行模式，實現輕重計算任務的靈活調度，保障運算元始終運行在高效區間。此外，該運算元結合左矩陣單次載入與常駐方案以及雙緩存機制，進一步實現數據搬運與計算的高效流水。通過上述系列「閃電突襲」，實現GMM計算加速2.1倍，解碼階段整網推理時延降低48.7%。

圖5 SwiftGMM融合運算元優化設計示意圖

推理演算法加速：降本增效，實現推理性能與資源效率的雙重躍升

推理系統端到端競爭力不僅涉及單一模型推理，還涉及輸入輸出序列長度優化，多個模型組合推理。華為團隊提出專家動態剪枝演算法PreMoE。針對慢思考輸出序列長度過長，提出反思壓縮TrimR演算法。針對多個模型協同，設計實現了反思投機SpecReason演算法。

PreMoE：給MoE模型動態「瘦身」

MoE模型在處理不同任務時，只有特定的專家會被顯著激活。和去醫院就診一樣，每次挂號去一個科室。MoE模型的專家動態剪枝PreMoE演算法，由兩個創新性技術組件組成：PEP用來度量專家重要性，選出給定任務最相關的專家；TAER查詢相似性動態載入與任務相關的專家。保持模型準確率的同時，實現推理吞吐提升10%+。

組合拳出擊：多個模型協同優化

在複雜邏輯問題上，慢思考生成冗長的中間「思考」。但是一旦模型找到正確答案，更進一步的思考收益甚微（「過度思考」）；在非常困難的問題上，模型在不同的解決方案之間頻繁切換（「欠思考」）。華為團隊提出TrimR反思壓縮演算法，用一個小的7B模型去動態監測大模型是否出現過度思考和欠思考，如果思考過程異常，通過修改Prompt及時讓大模型終止並給出最終答案，推理步數降低14%。

大模型通常能力較強，小模型相對能力偏弱，但是小模型能夠解答子問題。SpecReason反思投機演算法使用小模型首先生成 token 序列（如短分析段或假設），而不是單token預測，然後大模型執行正確性驗證：如果有效，將內容合成為濃縮摘要，並為下一個分析步驟提供方向性指導（如指定下一步探索哪個方面）；如果無效，調整小模型的推理方向，使其重新考慮假設或轉向替代假設。SpecReason充分發揮了小模型的優勢，推理吞吐提升30%。

性能全面突破：昇騰親和軟硬協同優化，推理解碼性能暴漲6~8倍

昇騰800I A2：大模型的高性能推理平台

在解碼階段採用4卡部署策略，Pangu Pro MoE模型實現了卓越的推理性能：小並發場景下（BS=1，Seq=2k）權重搬運量僅16B，具備低時延響應能力；大並發場景下（BS=456，Seq=2k），單卡吞吐達1148 tokens/s，較72B和32B稠密模型分別提升97%和18%。結合MTP投機推理技術，在token接受率達0.9時，單卡BS可提升至146，平均時延降至95.56 ms，最高吞吐突破1528 tokens/s，顯著提升高並發任務的推理效率。

表1 昇騰800I A2伺服器4卡配置下解碼階段推理性能測試結果（輸入長度2k）。*表示在MTP投機推理接受率達到0.9條件下可達到的最高輸出吞吐。

昇騰300I Duo：極致性價比的推理平台

依託Pangu Pro MoE模型與昇騰平台的深度協同，昇騰300I Duo在百億級MoE模型推理中展現出卓越性能與極高性價比。在預填充階段，2卡2路並發下實現2k序列輸入僅1.94s延遲，單卡吞吐達1055 tokens/s。在解碼階段，4卡部署靈活適配不同並發需求：小並發場景下延遲低至50ms，大並發場景（BS=80）下單卡吞吐達201 tokens/s，兼顧低延遲與高吞吐。結合高接受率的MTP技術，單卡Batch Size可提升至32，平均時延降至99.7ms，吞吐最高達321 tokens/s，充分釋放MoE模型在昇騰平台的推理潛能。與800I A2推理相比，300I DUO能夠提供更加經濟的MoE推理解決方案，為各行各業的推理應用部署提供極具性價比的選擇。