平頭哥發布首款智能網卡「磐脈 920」，補齊 AI 算力最後一塊短板

分類：科技

瀏覽數：9154

2026-04-30

gpu 買了那麼多，跑起來卻像「堵車」？

作者｜蘇子華

編輯｜鄭玄

最近兩年，ai 行業最熱的詞一直繞不開「算力」。

從大模型訓練，到今年 agent 的火熱，再到各家雲廠商不斷擴建智算中心，行業討論最多的，幾乎都是 gpu、晶元和算力規模。好像只要卡夠多，ai 就能繼續往前跑。

但現實並不是。

不少做大模型訓練和推理的人，已經越來越明顯地感受到另一層問題：機器越來越貴，gpu 越來越強，但模型訓練和推理的效率，卻沒有同步提升。

問題不一定出在算力本身，而可能出在另一件長期被忽視的事情上——網力。

平頭哥產品總監李旭慧打了個比方：「如果把算力比作 ai 時代的石油，網力就是輸油管道。算力提供動力，網力保障效率。」

4 月 28 日，在數字中國建設峰會上，平頭哥發布首款智能網卡磐脈 920。這是國內首個內置 pcie switch 的 400g 智能網卡，最大支持 400gbps 吞吐帶寬，可應用於萬卡智算集群、通算集群和高性能存儲等場景，目前已經量產，並將率先部署在阿里雲數據中心。

磐脈 920 想要解決的就是「網力」問題。

今天的大模型訓練，一個訓練任務，往往需要幾千甚至上萬張 gpu 同時協作。單張 gpu 性能再強，也必須跟整個集群保持同步。

問題在於，只要其中一部分節點慢下來，其他節點就只能等待。他觀察到，目前行業里很多萬卡級智算集群，gpu 實際利用率較低，「能做到 60%，已經算行業頂尖水平。」

過去行業更容易關注「有多少卡」，但實際在 ai 訓練場景中，系統運行效率並不是由最強的硬體決定，而是受限於集群里最慢的那個節點。「領先節點的算力會持續閑置等待，造成大規模算力浪費。」

磐脈 920 的發布實際上也指明了一個方向：當 gpu 已經足夠強之後，下一步到底該補哪裡。

一張網卡，盤活整個智算集群

當 ai 智能體開始進入真實業務場景，推理業務的佔比越來越高。

「在 agent 應用爆發的背景下，推理業務的增長速度顯著快於訓練。」李旭慧表示。

大模型訓練強調強同步，而推理面對的是大量突發、小包、高頻請求，對低時延和穩定性的要求更高，這也意味著對「網力」的要求更高。

而概括一下磐脈 920 在做的事，就是盡量減少整系統里的「堵」和「等」，通過網力的提升來釋放 ai 算力。

其背後的實現原理，有三個關鍵。

首先是支持多路徑 rdma，打破單一路徑的局限。

通俗理解，就是原本只能走一條高速，現在變成多條路同時分流。更關鍵的是，這些數據雖然分開走，但最終還能按順序準確拼回來。

李旭慧解釋，磐脈 920 通過支持逐包噴洒、亂序接收和選擇性重傳，實現 rdma 多路徑。

從結果來看，這套方案帶來的改善比較直接。

按照官方實測，磐脈 920 支持單 qp 打滿 400g 帶寬，而同類主流產品帶寬大約只有其一半。同時，多路徑能力可以把交換機埠緩衝區水線降低 90%，減少丟包和重傳。

第二個關鍵設計，是把「繞路」變成「直連」。

磐脈 920 最大的亮點之一，是內置 pcie switch。這也是國內首個做到這一點的 400g 智能網卡。

傳統伺服器架構里，pcie switch 通常部署在主板上，數據需要繞多個節點轉發。結果就是，有的路徑長，有的路徑短，時延不一致。

對於需要高度同步的 ai 訓練任務來說，這種「不整齊」會直接影響效率。

李旭慧打了個比方：傳統架構里，經常會出現「四個下行通道擠一個上行通道」的情況。

這很像四條支路同時匯入一條主幹道，堵塞幾乎不可避免。

磐脈 920 把 pcie switch 直接集成進晶元內部，讓網卡與 cpu、gpu 形成更直接的連接關係。

少繞路，意味著更低時延；路徑更統一，則意味著更穩定的同步效率。

根據平頭哥實測，在相同集群規模和任務條件下，部署磐脈 920 後，大模型訓練和推理任務完成時間可縮短 14%。

第三個關鍵，是讓網路具備自己判斷的能力。

傳統網卡更多像搬運工。收到數據，搬過去，僅此而已。

據了解，磐脈 920 加入了細粒度網路感知和可編程擁塞控制能力。直白講，就是它能主動避堵。讓網路開始從被動傳輸，變成主動調度。

對於越來越複雜的 ai 集群來說，這種能力的重要性會越來越明顯。

從這些設計能看出來，磐脈 920 並不是在追求參數上的簡單提升，它做的事情很務實，讓已經很貴的算力，少浪費一點，從而激發最大的潛能。

為何是阿里在定義 ai 基礎設施？

除了性能本身，磐脈 920 背後更值得關注的，是平頭哥和阿里的整體布局。

過去幾年，很多公司做晶元，往往集中在單一環節，比如 gpu、ai 加速卡或者 cpu。

但平頭哥的思路是做全棧。

目前，平頭哥已經形成四條產品線：真武系列 ai 晶元、倚天伺服器 cpu、鎮岳存儲主控晶元，以及這次發布的磐脈系列智能網卡。

對應的，正好是數據中心裡的幾個關鍵環節：算力、存力和網力。

李旭慧在採訪中表示：「單一晶元產品無法解決全鏈路問題，只有打通算力、存力、網力，才能最大化釋放 ai 硬體性能。」

這也是平頭哥和很多單點晶元公司的區別。它不是只做一塊性能更強的晶元，而是試圖從整個系統角度去看問題。

很多晶元公司做產品，先做出來，再去找客戶和落地場景。

但平頭哥不是。

李旭慧告訴極客公園，磐脈 920 立項之時 ai 智能體尚未成為行業焦點。但他們從阿里雲自身業務中判斷，未來 ai 一定會推動數據中心網路能力升級。

「一線業務場景的實際需求，是晶元技術迭代與產品優化的核心驅動力。」先有阿里雲的大規模業務場景，再從實際場景需求里倒推產品定義。

這就是磐脈 920 的商業路徑。據透露，和平頭哥倚天、真武、鎮岳系列晶元一樣，它會先部署在阿里雲數據中心。

從這個角度看，磐脈 920 的發布，本身就是阿里「通雲哥」協同能力的一次體現。

通義負責模型，阿里雲負責場景，平頭哥負責底層硬體。模型需求推動雲基礎設施升級，雲場景又反向推動晶元演進。

這種全棧自研的閉環，在國內科技公司里並不多見。「通雲哥」的模式雖然前期投入大、周期長，但一旦走通，護城河也極深。

ai 競爭走到今天，比拼的已經不是單點能力，而是這一整套系統能否順暢運轉。

隨著 ai 越來越多從訓練走向推理，模型、雲與晶元之間形成的持續反饋循環，整體優勢的顯現可能才剛剛開始。

*頭圖來源：平頭哥

本文為極客公園原創文章，轉載請聯繫極客君微信 geekparkgo

科技分類資訊推薦