平頭哥發布首款智能網卡「磐脈 920」,補齊 AI 算力最後一塊短板

gpu 買了那麼多,跑起來卻像「堵車」?
作者|蘇子華
編輯|鄭玄

最近兩年,ai 行業最熱的詞一直繞不開「算力」。

從大模型訓練,到今年 agent 的火熱,再到各家雲廠商不斷擴建智算中心,行業討論最多的,幾乎都是 gpu、晶元和算力規模。好像只要卡夠多,ai 就能繼續往前跑。

但現實並不是。

不少做大模型訓練和推理的人,已經越來越明顯地感受到另一層問題:機器越來越貴,gpu 越來越強,但模型訓練和推理的效率,卻沒有同步提升。

問題不一定出在算力本身,而可能出在另一件長期被忽視的事情上——網力。

平頭哥產品總監李旭慧打了個比方:「如果把算力比作 ai 時代的石油,網力就是輸油管道。算力提供動力,網力保障效率。」

4 月 28 日,在數字中國建設峰會上,平頭哥發布首款智能網卡磐脈 920。這是國內首個內置 pcie switch 的 400g 智能網卡,最大支持 400gbps 吞吐帶寬,可應用於萬卡智算集群、通算集群和高性能存儲等場景,目前已經量產,並將率先部署在阿里雲數據中心。

磐脈 920 想要解決的就是「網力」問題。

今天的大模型訓練,一個訓練任務,往往需要幾千甚至上萬張 gpu 同時協作。單張 gpu 性能再強,也必須跟整個集群保持同步。

問題在於,只要其中一部分節點慢下來,其他節點就只能等待。他觀察到,目前行業里很多萬卡級智算集群,gpu 實際利用率較低,「能做到 60%,已經算行業頂尖水平。」

過去行業更容易關注「有多少卡」,但實際在 ai 訓練場景中,系統運行效率並不是由最強的硬體決定,而是受限於集群里最慢的那個節點。「領先節點的算力會持續閑置等待,造成大規模算力浪費。」

磐脈 920 的發布實際上也指明了一個方向:當 gpu 已經足夠強之後,下一步到底該補哪裡。

01

一張網卡,盤活整個智算集群

當 ai 智能體開始進入真實業務場景,推理業務的佔比越來越高。

「在 agent 應用爆發的背景下,推理業務的增長速度顯著快於訓練。」李旭慧表示。

大模型訓練強調強同步,而推理面對的是大量突發、小包、高頻請求,對低時延和穩定性的要求更高,這也意味著對「網力」的要求更高。

而概括一下磐脈 920 在做的事,就是盡量減少整系統里的「堵」和「等」,通過網力的提升來釋放 ai 算力。

其背後的實現原理,有三個關鍵。

首先是支持多路徑 rdma,打破單一路徑的局限。

通俗理解,就是原本只能走一條高速,現在變成多條路同時分流。更關鍵的是,這些數據雖然分開走,但最終還能按順序準確拼回來。

李旭慧解釋,磐脈 920 通過支持逐包噴洒、亂序接收和選擇性重傳,實現 rdma 多路徑。

從結果來看,這套方案帶來的改善比較直接。

按照官方實測,磐脈 920 支持單 qp 打滿 400g 帶寬,而同類主流產品帶寬大約只有其一半。同時,多路徑能力可以把交換機埠緩衝區水線降低 90%,減少丟包和重傳。

第二個關鍵設計,是把「繞路」變成「直連」。

磐脈 920 最大的亮點之一,是內置 pcie switch。這也是國內首個做到這一點的 400g 智能網卡。

傳統伺服器架構里,pcie switch 通常部署在主板上,數據需要繞多個節點轉發。結果就是,有的路徑長,有的路徑短,時延不一致。

對於需要高度同步的 ai 訓練任務來說,這種「不整齊」會直接影響效率。

李旭慧打了個比方:傳統架構里,經常會出現「四個下行通道擠一個上行通道」的情況。

這很像四條支路同時匯入一條主幹道,堵塞幾乎不可避免。

磐脈 920 把 pcie switch 直接集成進晶元內部,讓網卡與 cpu、gpu 形成更直接的連接關係。

少繞路,意味著更低時延;路徑更統一,則意味著更穩定的同步效率。

根據平頭哥實測,在相同集群規模和任務條件下,部署磐脈 920 後,大模型訓練和推理任務完成時間可縮短 14%。

第三個關鍵,是讓網路具備自己判斷的能力。

傳統網卡更多像搬運工。收到數據,搬過去,僅此而已。

據了解,磐脈 920 加入了細粒度網路感知和可編程擁塞控制能力。直白講,就是它能主動避堵。讓網路開始從被動傳輸,變成主動調度。

對於越來越複雜的 ai 集群來說,這種能力的重要性會越來越明顯。

從這些設計能看出來,磐脈 920 並不是在追求參數上的簡單提升,它做的事情很務實,讓已經很貴的算力,少浪費一點,從而激發最大的潛能。

02

為何是阿里在定義 ai 基礎設施?

除了性能本身,磐脈 920 背後更值得關注的,是平頭哥和阿里的整體布局。

過去幾年,很多公司做晶元,往往集中在單一環節,比如 gpu、ai 加速卡或者 cpu。

但平頭哥的思路是做全棧。

目前,平頭哥已經形成四條產品線:真武系列 ai 晶元、倚天伺服器 cpu、鎮岳存儲主控晶元,以及這次發布的磐脈系列智能網卡。

對應的,正好是數據中心裡的幾個關鍵環節:算力、存力和網力。

李旭慧在採訪中表示:「單一晶元產品無法解決全鏈路問題,只有打通算力、存力、網力,才能最大化釋放 ai 硬體性能。」

這也是平頭哥和很多單點晶元公司的區別。它不是只做一塊性能更強的晶元,而是試圖從整個系統角度去看問題。

很多晶元公司做產品,先做出來,再去找客戶和落地場景。

但平頭哥不是。

李旭慧告訴極客公園,磐脈 920 立項之時 ai 智能體尚未成為行業焦點。但他們從阿里雲自身業務中判斷,未來 ai 一定會推動數據中心網路能力升級。

「一線業務場景的實際需求,是晶元技術迭代與產品優化的核心驅動力。」先有阿里雲的大規模業務場景,再從實際場景需求里倒推產品定義。

這就是磐脈 920 的商業路徑。據透露,和平頭哥倚天、真武、鎮岳系列晶元一樣,它會先部署在阿里雲數據中心。

從這個角度看,磐脈 920 的發布,本身就是阿里「通雲哥」協同能力的一次體現。

通義負責模型,阿里雲負責場景,平頭哥負責底層硬體。模型需求推動雲基礎設施升級,雲場景又反向推動晶元演進。

這種全棧自研的閉環,在國內科技公司里並不多見。「通雲哥」的模式雖然前期投入大、周期長,但一旦走通,護城河也極深。

ai 競爭走到今天,比拼的已經不是單點能力,而是這一整套系統能否順暢運轉。

隨著 ai 越來越多從訓練走向推理,模型、雲與晶元之間形成的持續反饋循環,整體優勢的顯現可能才剛剛開始。

*頭圖來源:平頭哥
本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkgo