數據中心告別「燙手芯片」 曙光數創推出全生命周期液冷解決方案

it時報記者 郝俊慧

面對越來越「熱」的算力芯片,曙光數創正想讓它快點「冷」下來。

在剛剛結束的2025中國智算中心全棧技術大會上,曙光數創發佈「新服務、新技術、新架構」三大新品,旨在通過一體化、全生命周期的服務新範式,解決當前液冷行業面臨的諸多痛點。

「液冷即服務,這個概念在行業里早就有需求了。」曙光數創副總裁兼cto張鵬在接受《it時報》記者在內的媒體採訪時表示,由於當前液冷解決方案還沒有標準,從設計到服務器,各家對液冷數據云架構的理解都不一樣,很多液冷數據中心的施工質量也參差不齊,對客戶來說,最好的答案是「好服務、好技術、好架構全都要,不要做選擇,是一個全生命周期的服務」。

國際數據公司(idc)今年4月8日公布的《中國半年度液冷服務器市場(2024下半年)跟蹤報告》(以下簡稱:《報告》)顯示,2024年中國液冷服務器市場規模達到23.7億美元,同比增長67.0%。其中,冷板式解決方案市場佔有率進一步提高。idc預計,2024年至2029年,中國液冷服務器市場年複合增長率將達到46.8%,2029年市場規模將達到162億美元。

液冷產業的爆發離不開上下游協同。從芯片、服務器到液冷系統,各環節需把控安全、推動技術融合,同時亟待建立統一標準。

越來越「燙手」的芯片

在ai大模型高速演進的當下,智算中心已逐步替代傳統數據中心成為新型基礎設施的核心。然而,算力芯片的功耗與發熱量,給數據中心的散熱系統帶來了前所未有的壓力,其功耗增長已呈指數級攀升。

不久前,英偉達ceo黃仁勛透露,其2026年推出的rubin芯片單顆功耗將高達1.6千瓦,而amd剛剛發佈的instinct mi355系列芯片功耗也已逼近1.4千瓦。

行業專家預測,未來幾年內,單芯片功耗可能突破二千瓦大關。算力密度的爆炸式增長,使傳統風冷方案陷入「能耗牆」的死角,液冷因其更高的換熱效率成為最現實也是最迫切的選擇。

芯片廠商已經先行一步。早在2022年,英偉達就推出過液冷版a100芯片,去年英偉達在其b100、h200芯片上正式從風冷散熱升級為液冷散熱。今年英偉達發佈的新一代blackwell ultra和amd新發佈的mi355x,都是液冷散熱設計,性能釋放也更強。

百度智能雲idc建設運維部副總經理郝玉濤認為,當機櫃功率超過40千瓦時,風冷將徹底失去競爭力,液冷憑藉其在能效和密度上的優勢,將成為數據中心高密散熱的主流技術。

高門檻急需標準先行

然而,液冷的應用並非沒有門檻。

在展會現場,《it時報》記者看到,在一塊gpu芯片上覆蓋著一個裝有兩根管道的裝置,工作人員告訴記者,液冷的原理就是讓液體(各家不同)進入裝置,將gpu的熱量在流動中帶走。只是,說起來簡單,真正部署一個全生命周期的液冷解決方案,卻面臨諸多技術門檻。

液冷數據中心在架構和原理上與傳統風冷數據中心有本質不同。傳統風冷有明確的標準,例如進風溫度23℃、迴風溫度37℃等。而液冷技術卻缺乏統一的行業標準,不同設備廠商使用的液冷接口、壓力等級、冷媒類型乃至監控協議都各不相同。

這使得客戶在設備選擇和系統集成時面臨困難。液冷服務器種類繁多,各家廠商在關鍵參數(如溫度、溫差、壓力)以及管路接口和架構設計上標準不一。郝玉濤舉例,由於液冷系統的管路接口和架構設計因廠商而異,設備兼容性差。若客戶需要跨機房遷移業務,管道接口匹配問題便成為一大痛點。

「風冷方案中,空調吹冷風,服務器吸熱風,架構是天然解耦的,標準很容易固定,但液冷不一樣,它通過直接接觸芯片進行散熱,冷卻液的質量直接影響芯片的長期穩定性。若冷卻液中含有雜質或化學性質不穩定,可能引發電化學腐蝕,甚至損壞芯片。」張鵬介紹,由於冷卻液直接進入服務器內部,對液體的純凈度和水質的要求非常嚴格。如果施工過程中發生二次污染,水質管理不到位,菌落超標,或者運維出現失誤,都可能導致芯片損壞或系統宕機等嚴重後果。

另一個挑戰來自系統壓力。液冷系統中,冷卻液的循環流動需要使用泵產生一定的壓力來推動,此外,液體受熱膨脹後,也會在封閉的冷卻迴路中導致系統壓力增加,「就跟高壓容器一樣,一旦出問題,就像炸彈爆炸,後果驚人。」張鵬強調,由於智算服務器價格昂貴,單台八卡基本在百萬元以上,任何潛在風險都可能轉化為巨大的經濟損失,這使得客戶在選擇液冷方案時更加謹慎。

目前,數據中心液冷技術全產業鏈條的標準正在制定中。2024年9月19日,在國家工信部、國標委引導下,由中國電子技術標準化研究院作為總歸口管理單位,曙光數據基礎設施創新技術(北京)股份有限公司(簡稱「曙光數創」)牽頭編製的國家標準《數據中心冷板式液冷系統技術規範》正式啟動,引導和規範了冷板式液冷數據中心向高質量、標準化方向發展。

截至目前,曙光數創已經牽頭或參與編製了6項國標、2項地標、14項行標和23項團標。

首次推出相變間接液冷方案

曙光數創此次正式發佈相變間接液冷數據中心解決方案c7000-f,為智算中心的發展提供新的思路和方向。

記者在展會現場看到了曙光數創第三代極智(冷板式)液冷數據中心整體解決方案的落地版,在一個類似「唱吧ktv」大小的獨立玻璃屋內,服務器和整套液冷設備採用一體化架構,集成高效冷板、模塊化分佈式換熱單元、智能壓力調控與冷媒循環系統,並基於統一協議接口標準,實現設備層到系統層的端到端聯動。

據工作人員介紹,這套設備可為八台服務器同時服務,而且曙光可以為用戶提供全局定製服務:從設計規划到設備選配,從生產交付到安裝施工,從運行調試到運維保障,從服務器的液冷散熱到數據中心系統集成,從全運行工況設備監控到全生命周期管理 的全過程、全方位、全鏈條服務。

曙光數創正在將液冷從「物理層」的散熱工具,上升到「系統級」算力支撐平台。

「計算基於全生命周期的單千瓦冷卻成本,在算力時代變得非常重要。」張鵬表示。

「單千瓦冷卻成本」是一個衡量數據中心冷卻效率的關鍵概念,指的是每消散一千瓦熱量所需的總成本,即tco(總體擁有成本)除以整個生命周期內消散的總熱量(以千瓦為單位),其中tco主要由兩部分構成:初始購買冷卻設備(如cpu、冷卻單元等)的硬件投入和服務器運行整個生命周期(例如5到10年)內與冷卻相關的費用(主要是電費)的運營成本。

曙光數創曾做過測試,當機櫃低密度部署時,單機櫃三千瓦,風冷性價比最高;中密度部署時,單機櫃30千瓦,液冷技術(如冷板冷卻)開始變得更具優勢;高密度部署時,單機櫃300千瓦,只有浸沒式相變冷卻才能有效應對ai算力所需的高熱量。

曙光數創是國內首個推出相變浸沒式液冷數據中心的廠商,pue最低可達1.04,幾乎接近於1。而此次,也首次將相變間接液冷技術產品化落地,推出相變間接液冷數據中心整體解決方案c7000-f,將特製的浸沒式冷媒用在冷板的循環管道里,當冷媒以液態形式通過管道接觸設備後,冷卻劑的溫度升高,部分液體變成氣體(汽化),從管道另一側轉移,進入冷卻器後再重新凝結成液體,而這個汽化過程會吸收大量熱量,也即所謂的「相變」。

「我們的冷媒可以讓系統壓力控制在三公斤,這已經和水冷板一樣,甚至更低。」張鵬介紹,這種曙光數創自主研發的冷媒,其熱物性參數、安全性、環保、毒理都沒有任何問題,即便出現泄漏也不會對gpu芯片產生破壞性影響。

「你想,我們的浸沒式方案,都是直接將服務器100%完全浸沒在這種冷媒中,都不會有問題。」一位現場工作人員介紹。

據了解,與普通冷板解決方案相比,相變間接液冷數據中心整體解決方案可有效降低冷板換熱熱阻15%,整體溫度收益下降5度,但成本漲幅卻能控制在5%以內,如果考慮長期運營成本,整體單千瓦冷卻成本反而是下降的。