當算力邁向萬卡集群,伺服器市場上演角力賽 | ToB產業觀察

2024年05月06日15:31:08 科技 5897

當算力邁向萬卡集群,伺服器市場上演角力賽 | ToB產業觀察 - 天天要聞

 圖片來源@pixabay

「預訓練大模型的發展為實現通用人工智慧提供了可能。其中算力一定要有比較大的進步,才可能有下一代。但短期內不太可能是gpu架構本身的明顯跨越,而是需要千卡、萬卡來適應大模型。」2021年末的一次交流中,某nlp創企ceo對鈦媒體表達。

在當時,這家企業已經遇到不少在算力層面的挑戰,他們與高校、英偉達、雲廠商都在保持密切溝通,希望對方能給予一些技術支持。但對於這些演算法領域的專家或創企而言,由於之前的工作並不太涉及硬體領域,「做模型的不懂算力,做算力的不懂模型」的現象非常常見。

「很多情況下需要雙方一線面對面溝通,才可能把真正的需求痛點解決掉。」該ceo表示。

三年後,類似於chatgpt、sora的大量生成式ai殺手級應用出現,也正在倒逼更強的算力基礎設施進一步升級。上述ceo所面臨的問題不僅依然存在,且受到了更上游英偉達等供應商對於gpu及相關專用晶元的限制,帶來了一系列連鎖反應。對於該nlp企業而言,如果有必要採購國產晶元,那麼不同性能、不同場景下的異構晶元「組合」方案將變得日常,而真正挑戰在於「怎麼組合」。

多位專家近來反覆也提及,大模型對算力需求增長已遠高於單顆ai晶元性能的增長速度。因此,需要通過晶元的互聯組成萬卡、甚至數萬卡的集群,來提供更高算力。但問題是,建設下一代數據中心,對卡間的網路互聯,集群間的互聯要求會變得更高,受綠色算力目標的牽制也會更明顯,就連英偉達自身也無法迴避這一問題。

浪潮信息高級副總裁劉軍的觀點是,實現更大的算力已經不在晶元,而是在演算法層面做創新,比如怎麼把算力分布到系統層面上,怎麼解決卡間互聯問題,怎麼讓更多的gpu高效協同。

鈦媒體注意到,在大模型演算法、雲、晶元這些對算力基礎設施產生不同推力的角色之外,像浪潮信息、新華三等處於產業鏈中游的主要伺服器供應商,紛紛發力生成式ai,圍繞算力、演算法、數據、互聯等範疇布局。

萬卡集群軍備賽

萬卡集群是個什麼概念?即使用數萬個gpu構建大型人工智慧集群,用以訓練基礎大模型。這種集群有助於大幅壓縮大模型訓練時間,以實現模型能力的快速迭代。

目前看來,包括電信運營商、互聯網企業等伺服器採購的頭部客戶在內,他們對ai算力集群的設計起點已經到了千卡級別,螞蟻集團在去年透露已建成萬卡異構算力集群,中國移動不久前透露今年將商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡集群,總規模近6萬張gpu卡。

但別看萬卡集群似乎成為大模型基建軍備賽的目標,其建設和維護仍面臨諸多挑戰。

鈦媒體此前分析,大模型場景下,算力需要大規模集中式訓練,伺服器也無法被切分成單個虛機,單個gpu無法完全容納整個模型訓練,採用分散式訓練是必然。這也同時導致了gpu通信問題,由於卡與卡之間存在的通信開銷,增加一倍卡並不能帶來線性的性能加速。在實際的ai集群環境中,會存在gpu之間的互聯帶寬受限或ai伺服器之間的網路互聯帶寬有限。

此外,卡數量增多後,過熱、故障就會一定比例出現,這往往會導致訓練中斷、梯度爆炸、演算法重跑一遍等,模型訓練成本也會居高不下。即便單卡算力再強,不考慮帶寬的優化,也會帶來極大的算力資源浪費。

在位元組跳動年初公布的一份論文中也列舉了基於萬卡集群訓練大模型的挑戰,即高效率、高穩定性,並提出將megascale系統部署到數據中心。

能夠看到,為了解決這些問題,各大科技公司紛紛投入研發,提出各種在萬卡集群上用於訓練大模型的方案。浪潮信息董事長彭震在近日與媒體溝通中指出,今天想要建一個能承載萬卡集群的機房還是很難的事情,它對基礎設施要求非常高。

因而,對於伺服器廠商而言,當其身量已不再局限於提供單一硬體產品時,而是綜合性解決方案,這些解決方案可能包括伺服器、存儲、網路、安全等方面,同時還需要針對下遊客戶的具體需求,提供定製方案。伺服器作為算力資源的重要載體,也正成為企業構建萬卡集群的核心一環。

當前中國市場局面則是,國家將數字基礎設施建設上升到戰略層面,全國一體化算力網路建設的布局拉開,伺服器的潛力已經引發新一輪的市場熱潮。而隨著生成式ai的浪潮襲來,通用型伺服器已難以滿足其帶來的日益增長的算力需求,面向ai場景的專用伺服器也應運而生,圍繞計算能耗的伺服器液冷等技術創新日漸成熟,也在驅動客戶主動布局該類方案。

根據idc此前公布的兩組數據:預計2023年中國人工智慧伺服器市場規模將達到91億美元,同比增長82.5%,五年年複合增長率達21.8%;2023全年中國液冷伺服器銷售額為101億元,同比增長48.0%,其中95%以上均採用冷板式液冷解決方案。

劉軍指出,ai時代只賣算力伺服器是不夠的,還需要其他手段去承載時代下的用戶需求。

邁向萬卡集群,要靠生態

不過,能設計並有效運行萬卡集群的企業,仍掌握在少數人手中。

舉一個最近的合作樣板:中國電信天翼雲點亮規模達15000卡的算力集群,很快得到人工智慧研究院、稀宇科技、百川智能、思必馳科技、億熵智能科技、瀾碼科技、賽隴生物科技、天壤智能科技8家國內合作夥伴的入駐。

目前看來,不同晶元在不同場景下取得的效果和效率仍有差別,浪潮信息更希望從算力層提供一個平台,支撐多元算力入駐。對於晶元企業而言,只需要專註在晶元本身而不需要研究互聯帶寬問題。彭震強調,晶元算力並非是ai發展不起來的直接原因,更多的其實是系統問題。

浪潮信息在將目光聚焦到與其他產業鏈夥伴,如晶元供應商、軟體開發商、系統集成商等合作,以應對當前gpu及相關專用晶元出口限制的影響。以epai品牌下的大模型計算框架tensorglue為例,它針對多種模型,與多款深度學習框架和異構晶元適配,降低演算法與應用向異構算力設備遷移的框架適配成本,幫助用戶在多模多元算力場景下的試錯和適配成本,推進大模型應用研發能力。

近期舉辦的ipf生態夥伴大會上,浪潮信息公布了幾項最新進展:演算法方面,發布企業大模型開發平台epai「元腦企智」,加速企業大模型落地應用;算力方面,面向大模型推理場景,聯合英特爾發布ai通用伺服器;存儲方面,發布分散式全快閃記憶體儲as13000g7,解決大模型訓練數據挑戰;互聯方面,發布超級ai乙太網交換機x400,加速大模型訓練推理。

從2021年推出「源」大模型為初始,出於對計算的理解,對市場價值創新的探索,以及企業內部數字化轉型的考慮,經過多年籌備,浪潮信息形成了從算力、演算法、數據、場景的從研發到產品線的全面戰略布局。如今,「以應用為導向,以系統為核心」,表達出浪潮信息接下來想要做的事情。

鈦媒體還注意到,英偉達的nvlink,正在被伺服器廠商提及甚至對標。nvlink提供一種高效可擴展的晶元通信間協議,允許所有gpu同時全速實時通信,就好像整個系統是單個gpu一樣。在今年4月的gtc大會上,英偉達也宣布nvlink更新到第五代,包括可擴展至576個gpu,能夠解決萬億參數混合專家模型通信瓶頸。

正如鐘擺理論的核心是圍繞某個中心值有規律擺動。劉軍告訴鈦媒體,無論是算力、演算法,還是數據,浪潮信息在不同時間節點可能都會有不同的側重,「關鍵是要走在鐘擺的前面,而不是走在後面。」(本文首發於鈦媒體app, 作者|楊麗,編輯 | 蓋虹達)

科技分類資訊推薦

海信推出 Vidda NEW S100 Pro 電視:100 英寸 192 分區,8999 元 - 天天要聞

海信推出 Vidda NEW S100 Pro 電視:100 英寸 192 分區,8999 元

IT之家 5 月 19 日消息,海信今天在京東上架一款 Vidda NEW S100 Pro 電視,這款電視主打「100 英寸 144Hz」,不過僅有 192 分區,該電視將於 5 月 21 日凌晨 0 點開售,首發價 8999 元。據介紹,這款電視配備 3840 x 2160 解析度 144Hz 面板,擁有 192 分區,覆蓋 85% DCI-P3 色域,
中核集團:全國最大海上光伏電站開工建設,2025 年全容量併網 - 天天要聞

中核集團:全國最大海上光伏電站開工建設,2025 年全容量併網

IT之家 5 月 19 日消息,據中核集團消息,5 月 19 日,我國最大的海上光伏項目 —— 中核田灣 200 萬千瓦灘涂光伏示範項目在江蘇連雲港正式開工建設。▲ 圖源中核集團公眾號,下同據介紹,項目預計於 2024 年 9 月首次併網,2025 年全容量併網,在運行期 25 年內年平均上網電量 22.34 億千瓦時,能夠滿足中等發達國家約 23...
長治振興小鎮「研學熱」持續升溫 「教育+科技」是亮點 - 天天要聞

長治振興小鎮「研學熱」持續升溫 「教育+科技」是亮點

田小麗立夏之後,暑氣漸顯。長治振興小鎮「研學熱」持續升溫,研學團接踵而至。5月11日,來自長治市實驗小學的學生走進振興小鎮,開展「感觸科技魅力 體驗非遺傳承」趣味研學游活動。5月18日,長治市平順縣苗庄中心校、北社中心校研學團隊走進振興小鎮開展「紅色教育點亮心燈 勞動實踐助力成長」研學游活動。……科技創新、...
聚焦數據要素×、AI安全等話題,2024西湖論劍·數字安全大會舉行 - 天天要聞

聚焦數據要素×、AI安全等話題,2024西湖論劍·數字安全大會舉行

5月18日,以「智繪安全 乘數而上」為主題的2024第十二屆西湖論劍·數字安全大會在杭州國際博覽中心舉行。作為國內首個進入第十二年的數字安全行業盛會,大會聚焦探討「數字安全助力數據要素×產業落地」「AI引領數字安全變革」等議題,全面、深入探討人工智慧浪潮下的數字安全新質生產力實現路徑,旨在為國內數字安全領域提...
使用Python Tkinter庫打造簡陋股票補倉計算器桌面應用 - 天天要聞

使用Python Tkinter庫打造簡陋股票補倉計算器桌面應用

前言大家好,最近洒家在股市裡虧麻了,洒家就尋思用python搗鼓一個簡陋的股票補倉計算器的桌面小工具,方便隨時計算補倉成本,廢話不多說,咱們這就開干!編程環境1.文中電腦操作系統:win72.文中所使用的python模塊:(1).
618來真的,iPhone和iPad全線降價,手機4699元,新平板4599元 - 天天要聞

618來真的,iPhone和iPad全線降價,手機4699元,新平板4599元

眾所周知,由於競品實力強大,自身創新不足,一季度蘋果手機在國內市場份額下跌不少,相比於去年一季度,有19.1%的下跌。而來到第二季度,也是傳統的大促618,蘋果終於發力了,手機平板全線降價,誓要奪回市場份額。我們看了下,確實是來真的,沒有各種條件,從5月20日起直接降價。其中,iPhone 15 128GB版本直接降價1300元...
76億!孫正義再出手,領投比爾·蓋茨狂贊的自動駕駛獨角獸 - 天天要聞

76億!孫正義再出手,領投比爾·蓋茨狂贊的自動駕駛獨角獸

作者丨巴里編輯丨關雎題圖丨圖蟲創意今年自動駕駛賽道最大的一輪融資來了!日前,英國自動駕駛獨角獸Wayve宣布獲得10.5億美元(約75.76億元人民幣)C輪投資,本輪融資由軟銀集團領投,新投資方英偉達和現有投資方微軟跟投。同時,作為最終交易的一部分,軟銀將加入Wayve的董事會。據悉,該行業上一筆10億美元級別融資發生在...
華為手錶推出520主題表,營造極致浪漫美學 - 天天要聞

華為手錶推出520主題表,營造極致浪漫美學

5 月確實是一個繽紛多彩的月份,在勞動節和母親節之後,年輕人們又開始關注起 520 這個諧音「我愛你」的特殊日子,甚至也有網友將其命名為「網路情人節」,「大膽表達愛」已然成為這個特殊日子的一種潮流。也就是在這樣的一個特殊日子裡,華為傾聽到了眾多年輕人的心聲,在520前夕帶來了全新的華為 520 主題錶盤,幫助用戶...