
三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的“石器时代”中,为后世留下了变革的火种。
近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。
如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊病,还能够降本增效,便于训练和部署。
AI之战远未终结,但正如在其他领域中“多快好省”的中国产业底色一样,大模型这棵生于西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。
近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相关的技术细节。
希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的开放协作生态环境,让升腾生态在中国茁壮成长。
《华为技术披露集》系列
VOL.12 :升腾×盘古
在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出升腾平台原生设计的Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化,Pangu Pro MoE推理性能提升6~8倍,在升腾300I Duo上单卡吞吐可达321 tokens/s,实现极致性价比;在升腾800I A2上更可飙升至1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。
技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/
推理效率拉满:全链路推理系统优化,释放升腾澎湃算力
在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开“全员大会”,沟通成本高、效率低,项目推进自然慢半拍。聪明的做法,是开对会、分好组,精准沟通、各司其职。这正是华为团队在Pangu Pro MoE大模型推理优化中的灵感来源。
分层混合并行(H2P):不再“全员大会”,“专人专会”推理才高效
还在用“一刀切”的并行方式处理大模型?就像公司里什么事都开全员大会,不管你是财务还是研发,全都坐在会议室浪费时间——看似热闹,实则低效。
华为团队另辟蹊径,灵感来自“专人专会”策略,提出创新性的H2P分层混合并行(Hierarchical & Hybrid Parallelism)。与其让所有模块频繁地“开大会”,不如根据任务特性“分工开小会”,让每个部分在各自的通信域内中高效执行。
该策略精准匹配模型结构和硬件互联拓扑特性:Attention模块采用DP2+TP4并行方案,轻量参数聚焦单CPU内高效通信;Expert模块针对路由专家的分组与动态负载,采用TP2+EP4策略,实现计算均衡与效率提升;共享专家则以TP8全芯并行,加速稠密计算,全方位激发升腾平台算力潜能。
H2P策略进一步在Attention模块引入Reduce-Scatter替代AllReduce,避免数据聚合操作导致后续通信传输数据量膨胀,并通过优化AllGather插入位置,降低冗余向量计算;同时基于分组专家设计,Expert模块利用全局AllGather高效完成token与专家的动态匹配,结合全局Reduce-Scatter实现路由专家与共享专家的归一通信。
通过这种“哪类事开哪类会”的智慧分工方式,H2P策略让每个模块都在最适合的并行方式下发挥最大潜能,摆脱了传统“大锅饭式”并行的性能瓶颈,让推理效率飞升一大截,Decode吞吐性能相比纯TP方案提升33.1%。

图1:H2P优化方案示意图
攻克通信瓶颈(TopoComm):拒绝“冗余发言”,“言简意赅”推理才畅通
在大模型推理中,通信就像一场大型数据会议:“会前准备”是静态开销,“会中发言”则对应数据传输。华为团队以“提高开会效率”为目标,设计TopoComm优化方案,从会前准备到会中交流环节全方位深度优化集合通信,让数据传得快、讲得清、效率高。
针对静态开销,提出SlimRing算法,利用Ring链路通信对象固定特性,合并相邻通信步的后同步与前同步操作,同步次数降低35%。针对传输耗时,提出NHD算法,通过拓扑亲和的分级通信等效提高链路有效带宽21%;进一步引入INT8 AllGather + FP16 Reduce-Scatter的混合量化通信策略,结合跨芯校准与量化因子复用,实现通信数据压缩25%,AllGather通信耗时降低39%。

图2:TopoComm优化方案示意图
计算&通信融合(DuoStream):告别“干等闲耗”,推理“开会干活”两不误
大模型分布式并行推理就像一个协作型项目,需要多卡在通信(开会)与计算(干活)之间不断交替执行。高效的团队往往能在会议中一边讨论、一边分工执行,真正做到边“开会”边“干活”,从而大大提高整体效率。华为团队正是借助这一理念,深入挖掘升腾平台多流架构的潜力,提出DuoStream算子级多流融合通算优化方案,实现计算与通信的细粒度并发调度,大幅提升推理计算效率。
针对Pangu Pro MoE模型中Expert模块通信占比高的问题,构建GMMRS(GroupedMatmul+Reduce-Scatter)与AGMM(AllGather+Matmul)两大融合策略,有效克服通信与数据搬运和计算之间的瓶颈,实现关键通信路径的流水掩盖,进一步释放模型在升腾平台上的推理性能。通过这套“边讨论边干活”的融合式优化机制,通信与数据搬运和计算协同推进,显著提升了模型在升腾平台上的推理效率,最大化释放硬件资源潜能。

图3 DuoStream优化方案示意图
打造六边形算子战队:单兵作战到特种部队,融合算子释放升腾潜能
在大模型推理的算力战场上,传统算子如同各自为战的“单兵”,每个算子独立执行、协作脱节。数据搬运兵(内存访问) 与计算突击手(矩阵乘)各自为战,每次任务需反复传递数据(全局内存读写),大量兵力浪费在资源协调上(Kernel启动开销),导致资源调度低效、内存搬运频繁,造成大模型推理的“单兵算子困局”。为终结算力内耗以释放硬件潜力,华为团队重构算子执行范式,打造两支精锐“融合算子特种部队”,MulAttention和SwiftGMM,实现了从资源访问、计算调度到数据搬运的全链路优化,显著提升推理性能表现。
MulAttention:注意力计算尖刀连,打下推理KV搬运桥头堡
随着并发数和序列长度持续增长,Attention计算时延在整网占比达30%至50%,其中KV缓存搬运占据了约70%的算子执行耗时。为此,华为团队基于升腾架构打造原生高性能融合算子——MulAttention。
该算子围绕增量推理阶段KV数据搬运与计算的高效流水编排开展优化,通过构建KV大包连续搬运优化策略,极大提高了访存带宽利用率。同时设计KV预取流水机制,有效降低计算的暴露时延。进一步构建了KV双循环结构,解耦矩阵与向量计算间数据依赖,缓解指令队列堵塞同时提高向量计算并行度。最终实现Attention计算加速4.5倍,达成89%以上的数据搬运流水占用率以及87%的访存带宽利用率。

图4 MulAttention融合算子优化设计示意图
SwiftGMM:专家计算突击队,闪电速度抵达推理算力战场
路由专家权重搬运已成为MoE模型端到端时延的核心瓶颈,且其稀疏激活特性导致的负载动态波动进一步放大了性能优化的挑战。对此,华为团队面向升腾平台推出高性能矩阵计算引擎——SwiftGMM。
SwiftGMM引入基于历史数据的智能分块缓存策略,通过动态预测并调整最优分块参数,规避重排开销;同时根据计算负载强度,动态切换GEMV与GEMM执行模式,实现轻重计算任务的灵活调度,保障算子始终运行在高效区间。此外,该算子结合左矩阵单次加载与常驻方案以及双缓存机制,进一步实现数据搬运与计算的高效流水。通过上述系列“闪电突袭”,实现GMM计算加速2.1倍,解码阶段整网推理时延降低48.7%。

图5 SwiftGMM融合算子优化设计示意图
推理算法加速:降本增效,实现推理性能与资源效率的双重跃升
推理系统端到端竞争力不仅涉及单一模型推理,还涉及输入输出序列长度优化,多个模型组合推理。华为团队提出专家动态剪枝算法PreMoE。针对慢思考输出序列长度过长,提出反思压缩TrimR算法。针对多个模型协同,设计实现了反思投机SpecReason算法。
PreMoE:给MoE模型动态“瘦身”
MoE模型在处理不同任务时,只有特定的专家会被显著激活。和去医院就诊一样,每次挂号去一个科室。MoE模型的专家动态剪枝PreMoE算法,由两个创新性技术组件组成:PEP用来度量专家重要性,选出给定任务最相关的专家;TAER查询相似性动态加载与任务相关的专家。保持模型准确率的同时,实现推理吞吐提升10%+。
组合拳出击:多个模型协同优化
在复杂逻辑问题上,慢思考生成冗长的中间“思考”。但是一旦模型找到正确答案,更进一步的思考收益甚微(“过度思考”);在非常困难的问题上,模型在不同的解决方案之间频繁切换(“欠思考”)。华为团队提出TrimR反思压缩算法,用一个小的7B模型去动态监测大模型是否出现过度思考和欠思考,如果思考过程异常,通过修改Prompt及时让大模型终止并给出最终答案,推理步数降低14%。
大模型通常能力较强,小模型相对能力偏弱,但是小模型能够解答子问题。SpecReason反思投机算法使用小模型首先生成 token 序列(如短分析段或假设),而不是单token预测,然后大模型执行正确性验证:如果有效,将内容合成为浓缩摘要,并为下一个分析步骤提供方向性指导(如指定下一步探索哪个方面);如果无效,调整小模型的推理方向,使其重新考虑假设或转向替代假设。SpecReason充分发挥了小模型的优势,推理吞吐提升30%。
性能全面突破:升腾亲和软硬协同优化,推理解码性能暴涨6~8倍
升腾800I A2:大模型的高性能推理平台
在解码阶段采用4卡部署策略,Pangu Pro MoE模型实现了卓越的推理性能:小并发场景下(BS=1,Seq=2k)权重搬运量仅16B,具备低时延响应能力;大并发场景下(BS=456,Seq=2k),单卡吞吐达1148 tokens/s,较72B和32B稠密模型分别提升97%和18%。结合MTP投机推理技术,在token接受率达0.9时,单卡BS可提升至146,平均时延降至95.56 ms,最高吞吐突破1528 tokens/s,显著提升高并发任务的推理效率。
表1 升腾800I A2服务器4卡配置下解码阶段推理性能测试结果(输入长度2k)。*表示在MTP投机推理接受率达到0.9条件下可达到的最高输出吞吐。
升腾300I Duo:极致性价比的推理平台
依托Pangu Pro MoE模型与升腾平台的深度协同,升腾300I Duo在百亿级MoE模型推理中展现出卓越性能与极高性价比。在预填充阶段,2卡2路并发下实现2k序列输入仅1.94s延迟,单卡吞吐达1055 tokens/s。在解码阶段,4卡部署灵活适配不同并发需求:小并发场景下延迟低至50ms,大并发场景(BS=80)下单卡吞吐达201 tokens/s,兼顾低延迟与高吞吐。结合高接受率的MTP技术,单卡Batch Size可提升至32,平均时延降至99.7ms,吞吐最高达321 tokens/s,充分释放MoE模型在升腾平台的推理潜能。与800I A2推理相比,300I DUO能够提供更加经济的MoE推理解决方案,为各行各业的推理应用部署提供极具性价比的选择。

表2 升腾300I Duo服务器4卡配置下解码阶段推理性能测试结果(输入长度2k)。*表示在MTP投机推理接受率达到0.9条件下可达到的最高输出吞吐。
至此,升腾盘古推理系统的全流程优化已全面揭晓。从系统级优化到高性能算子,软硬协同、层层突破、步步精进,构建起高性能、大规模、低成本的推理能力底座。华为团队持续深耕模型-系统的软硬协同创新,为通用大模型的规模部署和高效落地提供了坚实支撑。
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 [email protected]
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4433740.html?f=jinritoutiao