當算力邁向萬卡集群,服務器市場上演角力賽 | ToB產業觀察

 圖片來源@pixabay

「預訓練大模型的發展為實現通用人工智能提供了可能。其中算力一定要有比較大的進步,才可能有下一代。但短期內不太可能是gpu架構本身的明顯跨越,而是需要千卡、萬卡來適應大模型。」2021年末的一次交流中,某nlp創企ceo對鈦媒體表達。

在當時,這家企業已經遇到不少在算力層面的挑戰,他們與高校、英偉達、雲廠商都在保持密切溝通,希望對方能給予一些技術支持。但對於這些算法領域的專家或創企而言,由於之前的工作並不太涉及硬件領域,「做模型的不懂算力,做算力的不懂模型」的現象非常常見。

「很多情況下需要雙方一線面對面溝通,才可能把真正的需求痛點解決掉。」該ceo表示。

三年後,類似於chatgpt、sora的大量生成式ai殺手級應用出現,也正在倒逼更強的算力基礎設施進一步升級。上述ceo所面臨的問題不僅依然存在,且受到了更上游英偉達等供應商對於gpu及相關專用芯片的限制,帶來了一系列連鎖反應。對於該nlp企業而言,如果有必要採購國產芯片,那麼不同性能、不同場景下的異構芯片「組合」方案將變得日常,而真正挑戰在於「怎麼組合」。

多位專家近來反覆也提及,大模型對算力需求增長已遠高於單顆ai芯片性能的增長速度。因此,需要通過芯片的互聯組成萬卡、甚至數萬卡的集群,來提供更高算力。但問題是,建設下一代數據中心,對卡間的網絡互聯,集群間的互聯要求會變得更高,受綠色算力目標的牽制也會更明顯,就連英偉達自身也無法迴避這一問題。

浪潮信息高級副總裁劉軍的觀點是,實現更大的算力已經不在芯片,而是在算法層面做創新,比如怎麼把算力分佈到系統層面上,怎麼解決卡間互聯問題,怎麼讓更多的gpu高效協同。

鈦媒體注意到,在大模型算法、雲、芯片這些對算力基礎設施產生不同推力的角色之外,像浪潮信息、新華三等處於產業鏈中游的主要服務器供應商,紛紛發力生成式ai,圍繞算力、算法、數據、互聯等範疇布局。

萬卡集群軍備賽

萬卡集群是個什麼概念?即使用數萬個gpu構建大型人工智能集群,用以訓練基礎大模型。這種集群有助於大幅壓縮大模型訓練時間,以實現模型能力的快速迭代。

目前看來,包括電信運營商、互聯網企業等服務器採購的頭部客戶在內,他們對ai算力集群的設計起點已經到了千卡級別,螞蟻集團在去年透露已建成萬卡異構算力集群,中國移動不久前透露今年將商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡集群,總規模近6萬張gpu卡。

但別看萬卡集群似乎成為大模型基建軍備賽的目標,其建設和維護仍面臨諸多挑戰。

鈦媒體此前分析,大模型場景下,算力需要大規模集中式訓練,服務器也無法被切分成單個虛機,單個gpu無法完全容納整個模型訓練,採用分佈式訓練是必然。這也同時導致了gpu通信問題,由於卡與卡之間存在的通信開銷,增加一倍卡並不能帶來線性的性能加速。在實際的ai集群環境中,會存在gpu之間的互聯帶寬受限或ai服務器之間的網絡互聯帶寬有限。

此外,卡數量增多後,過熱、故障就會一定比例出現,這往往會導致訓練中斷、梯度爆炸、算法重跑一遍等,模型訓練成本也會居高不下。即便單卡算力再強,不考慮帶寬的優化,也會帶來極大的算力資源浪費。

在位元組跳動年初公布的一份論文中也列舉了基於萬卡集群訓練大模型的挑戰,即高效率、高穩定性,並提出將megascale系統部署到數據中心。

能夠看到,為了解決這些問題,各大科技公司紛紛投入研發,提出各種在萬卡集群上用於訓練大模型的方案。浪潮信息董事長彭震在近日與媒體溝通中指出,今天想要建一個能承載萬卡集群的機房還是很難的事情,它對基礎設施要求非常高。

因而,對於服務器廠商而言,當其身量已不再局限於提供單一硬件產品時,而是綜合性解決方案,這些解決方案可能包括服務器、存儲、網絡、安全等方面,同時還需要針對下遊客戶的具體需求,提供定製方案。服務器作為算力資源的重要載體,也正成為企業構建萬卡集群的核心一環。

當前中國市場局面則是,國家將數字基礎設施建設上升到戰略層面,全國一體化算力網絡建設的布局拉開,服務器的潛力已經引發新一輪的市場熱潮。而隨着生成式ai的浪潮襲來,通用型服務器已難以滿足其帶來的日益增長的算力需求,面向ai場景的專用服務器也應運而生,圍繞計算能耗的服務器液冷等技術創新日漸成熟,也在驅動客戶主動布局該類方案。

根據idc此前公布的兩組數據:預計2023年中國人工智能服務器市場規模將達到91億美元,同比增長82.5%,五年年複合增長率達21.8%;2023全年中國液冷服務器銷售額為101億元,同比增長48.0%,其中95%以上均採用冷板式液冷解決方案。

劉軍指出,ai時代只賣算力服務器是不夠的,還需要其他手段去承載時代下的用戶需求。

邁向萬卡集群,要靠生態

不過,能設計並有效運行萬卡集群的企業,仍掌握在少數人手中。

舉一個最近的合作樣板:中國電信天翼雲點亮規模達15000卡的算力集群,很快得到人工智能研究院、稀宇科技、百川智能、思必馳科技、億熵智能科技、瀾碼科技、賽隴生物科技、天壤智能科技8家國內合作夥伴的入駐。

目前看來,不同芯片在不同場景下取得的效果和效率仍有差別,浪潮信息更希望從算力層提供一個平台,支撐多元算力入駐。對於芯片企業而言,只需要專註在芯片本身而不需要研究互聯帶寬問題。彭震強調,芯片算力並非是ai發展不起來的直接原因,更多的其實是系統問題。

浪潮信息在將目光聚焦到與其他產業鏈夥伴,如芯片供應商、軟件開發商、系統集成商等合作,以應對當前gpu及相關專用芯片出口限制的影響。以epai品牌下的大模型計算框架tensorglue為例,它針對多種模型,與多款深度學習框架和異構芯片適配,降低算法與應用向異構算力設備遷移的框架適配成本,幫助用戶在多模多元算力場景下的試錯和適配成本,推進大模型應用研發能力。

近期舉辦的ipf生態夥伴大會上,浪潮信息公布了幾項最新進展:算法方面,發佈企業大模型開發平台epai「元腦企智」,加速企業大模型落地應用;算力方面,面向大模型推理場景,聯合英特爾發佈ai通用服務器;存儲方面,發佈分佈式全閃存儲as13000g7,解決大模型訓練數據挑戰;互聯方面,發佈超級ai以太網交換機x400,加速大模型訓練推理。

從2021年推出「源」大模型為初始,出於對計算的理解,對市場價值創新的探索,以及企業內部數字化轉型的考慮,經過多年籌備,浪潮信息形成了從算力、算法、數據、場景的從研發到產品線的全面戰略布局。如今,「以應用為導向,以系統為核心」,表達出浪潮信息接下來想要做的事情。

鈦媒體還注意到,英偉達的nvlink,正在被服務器廠商提及甚至對標。nvlink提供一種高效可擴展的芯片通信間協議,允許所有gpu同時全速實時通信,就好像整個系統是單個gpu一樣。在今年4月的gtc大會上,英偉達也宣布nvlink更新到第五代,包括可擴展至576個gpu,能夠解決萬億參數混合專家模型通信瓶頸。

正如鐘擺理論的核心是圍繞某個中心值有規律擺動。劉軍告訴鈦媒體,無論是算力、算法,還是數據,浪潮信息在不同時間節點可能都會有不同的側重,「關鍵是要走在鐘擺的前面,而不是走在後面。」(本文首發於鈦媒體app, 作者|楊麗,編輯 | 蓋虹達)