浸沒式液冷廣泛應用還需應對哪些挑戰?

2025年05月29日08:20:13 科技 5798

(本文編譯自electronicdesign)


由於人工智能(ai)和高性能計算(hpc)的興起,數據中心的工作負載持續激增,傳統的空氣冷卻方法已逐漸接近實際應用的極限。隨着熱負載的增加和密度要求的提升,數據中心運營商迫切需要尋找新的散熱管理方案。浸沒式液冷已成為一條充滿前景的發展路徑。


然而,這一轉變暴露出行業在定義和測試組件可靠性方面存在的顯著漏洞。為空氣冷卻環境制定的標準,從未考慮過組件完全浸沒在介電流體中時的材料性能表現。鑒於架構設計和性能方面的新需求,老化模型、故障模式甚至組件耐用性的基本假設等關鍵因素都需要重新考量。


這一變革正在重塑數據中心運營商評估組件可靠性的方式。支持空氣冷卻系統的現有標準曾發揮過重要作用,但如今必須升級以應對浸沒式液冷環境帶來的新挑戰。


儘管空氣冷卻標準長期為系統規劃提供指導,但浸沒式液冷引入了一套不同的老化機制和材料挑戰。為了跟上發展步伐,工程師和開放計算項目(ocp)等行業組織正攜手合作,基於真實的浸沒式液冷條件構建測試框架。這一轉變凸顯了空氣冷卻系統與浸沒式液冷系統在設計和可靠性方面的顯著差異(見圖1)。


浸沒式液冷廣泛應用還需應對哪些挑戰? - 天天要聞


浸沒式液冷技術如何重構系統設計挑戰?


浸沒式液冷消除了氣流限制,但要求從根本上重新思考基礎設施、材料選擇和系統設計等方面。傳統的空氣冷卻系統依賴風扇和散熱器,如今在管理組件熱設計功率(tdp)方面面臨越來越大的挑戰——目前的組件tdp通常超過300瓦,許多下一代gpu和ai加速器甚至突破了400瓦的臨界閾值。一旦超過這一閾值,氣流往往不足以維持安全工作溫度。


為了彌補這一差距,許多數據中心運營商最初轉向冷板冷卻技術,該技術通過將液體直接循環至最熱的組件來改善熱傳遞。然而,儘管這種方法比空氣冷卻更能應對更高的芯片密度,冷板解決方案卻帶來了大量的管道布置、複雜的機架級熱交換器集成,以及額外的機械故障點,包括管道和連接處泄漏的風險。


隨着計算負載持續攀升,無論是單相還是雙相的全浸沒式冷卻,正成為克服空氣冷卻和冷板系統結構與散熱限制的下一個選擇。通過將服務器完全浸沒在介電流體中,浸沒式液冷從根本上避開了氣流限制。


與傳統空氣冷卻相比,浸沒式液冷潛在的節能效果(通常稱可達30%)取決於多個因素,包括使用的特定浸沒式技術、基準空氣冷卻系統的電源使用效率(pue)、氣候條件以及it負載的特性。在最佳條件下,這可能顯著提升能源效率。然而,實現這些收益需要的不僅僅是對現有硬件的改造。


浸沒式液冷改造面臨的挑戰


改造現有數據中心往往面臨嚴峻挑戰。許多傳統數據中心使用高架地板,但這些地板並非為支撐浸沒式液冷水箱的重量和密度而設計。升級此類站點通常需要花費高昂的成本進行結構加固,同時還需添加浸沒式液冷所需的系統,如熱交換器、流體管道和維護通道。


鑒於這些結構和基礎設施方面的挑戰,大多數新的浸沒式液冷部署正轉向專門建造的“ai工廠”環境——這類環境的地板支撐、冷卻基礎設施和空間布局均針對浸沒式架構進行了專門設計。


在新建數據中心中,浸沒式液冷可實現更高的機架密度和更優的散熱控制,但這一優勢僅在基礎設施為浸沒式系統專門設計時才能實現。


基於空氣冷卻標準的局限性


浸沒式液冷雖具備顯著的散熱優勢,但也暴露出傳統可靠性框架的不足。現存的大多數標準旨在模擬材料在空氣中的老化過程——在這種環境下,氧化(而非化學相互作用)是導致故障的主要因素。而在介電流體內部,氧化過程會顯著減緩。


取而代之的是熱化學降解風險,包括潛在的水解反應、材料膨脹,以及添加劑逐漸滲入流體等現象,這些已成為主要風險。隨着時間推移,此類化學變化會削弱材料的機械性能,進而影響它們的長期可靠性。諸如混合氣流老化測試等傳統方法,其初衷是通過讓材料暴露於二氧化硫、二氧化氮等反應性氣體中來模擬空氣中的腐蝕情況,但這類方法已無法匹配流體環境中的實際失效機制。


除了上述在可靠性標準方面遇到的挑戰,浸沒式液冷在熱設計和機械設計方面也面臨著一些問題。


當涉及數據中心的液冷技術時,即使是關於熱行為的基本假設也需要轉變。組件溫升限制(通常相對於環境空氣定義,例如溫升30°c)無法直接套用,因為核心因素始終是組件的結溫(tj)。


流體能更高效地從表面帶走熱量,允許整體流體溫度有一定的潛在升高(無論是40°c、50°c或更高)。然而,目前行業尚未就標準化的安全工作流體溫度閾值達成共識,這些閾值需確保不同硬件的結溫(tj)均處於可接受範圍。


機械應力的表現也有所不同。在流體中,振動和衝擊會被抑制,這雖然掩蓋了傳統的疲勞模式,但引入了新的機械考量,例如組件受到的浮力效應或流體動力學產生的應力,這些均未被基於空氣冷卻的模型納入考量。


長期以來,儘管加速老化表都為空氣環境中的可靠性預測提供指導,但浸沒式液冷領域尚未有與之匹配的表格。缺乏這些數據,製造商不得不從不完整或不匹配的數據中推斷組件耐用性。隨着浸沒式液冷從試點項目轉向大規模生產部署,這是一個充滿風險的命題。


基於空氣冷卻的標準已不再適用於沉浸式環境中佔主導地位的化學和機械失效模式(如圖2所示)。對流體特定可靠性模型的需求已不再停留在理論層面,而是一個日益擴大的缺口,必須加以填補以支持下一代高性能數據中心的發展。


浸沒式液冷廣泛應用還需應對哪些挑戰? - 天天要聞


早期浸沒式液冷部署觀察


儘管業界對浸沒式液冷的興趣與日俱增,但當前大多數部署仍依賴對空氣冷卻硬件的改造,而非專門為浸沒式環境設計的架構。許多早期部署只是簡單地將風冷服務器浸沒在介電流體中,可用“一浸了之,聽天由命”來形容。這種方法會立即暴露出兼容性問題,且幾乎無法為長期標準制定提供可用的可靠性數據。


如果沒有專門為浸沒式液冷設計的硬件,就很難從現場經驗中分離出真正的失效機制或構建可靠的老化模型。許多基於空氣冷卻假設設計的早期系統,在流體環境中因設計過度而掩蓋了潛在的可靠性風險,同時也未能充分發揮效率提升的潛力。


浸沒式液冷中的電氣與互連挑戰

浸沒式液冷廣泛應用還需應對哪些挑戰? - 天天要聞


電氣方面的挑戰也逐漸顯現。由於介電流體的介電常數(dk)和介電損耗(df)高於空氣,高速連接器會出現更顯著的信號衰減和阻抗偏移,尤其是在高頻場景下。如果不加以解決,這些影響將降低系統帶寬和吞吐量,因此專用互連技術成為下一代設計的核心需求。


浸沒式液冷技術專用硬件創新機遇


與此同時,浸沒式液冷環境也帶來了大量新機遇。近期的測試表明,最初為空氣冷卻設計的電源連接器在完全浸沒時可承載超過其額定電流150%的負載。未來針對浸沒式液冷優化的設計可能將銅材用量減少多達一半,同時仍滿足嚴苛的熱管理和電氣要求,支持更緊湊、高效的配置。


藉助真正針對浸沒式液冷優化的框架,行業可以重新思考系統設計的基礎層面,包括機架密度、基於流體的熱管理以及長期機械耐久性。專用系統將實現更小巧的外形尺寸和更高的散熱裕量,同時增強對流體環境中新型化學和機械應力的抵禦能力。


調整加速壽命測試並引入新策略


隨着浸沒式液冷技術被更廣泛的應用,可靠性測試方法也必須隨之演進,以反映基於流體環境的實際情況。


加速壽命測試(alt)仍是核心方法,但其在浸沒式液冷中的應用需要調整。由於傳統老化模型不再適用,行業開始應用失效物理(pof)原理,識別材料、結構和電氣路徑在真實浸沒式條件下的退化方式,從而從頭開始定義可靠性。


傳統的加速模型,如用於熱老化的阿倫尼烏斯模型,可能需要修訂,以納入化學反應動力學和流體-材料相互作用,這可能會改變標準加速因子。浸沒式環境還需要補充策略:失效測試(ttf)技術在識別材料膨脹、密封件化學軟化以及電氣性能逐漸變化等風險方面變得愈發重要。


整合複合應力因素以實現真實場景測試


如今,有效的可靠性測試需要整合多個並發應力因素。必須綜合評估熱循環、機械負載、化學降解和電信號偏移,以全面表徵系統隨時間的行為變化。基於氧化老化和熱應力鬆弛的框架(曾足以滿足空氣冷卻需求)已不再適用。


新模型(很可能基於失效物理(pof)方法)必須考慮熱化學降解動力學、流體-材料兼容性,以及浸沒式液冷引入的獨特機械負載,如浮力和流體動力。


探索高加速壽命測試(halt)在浸沒式環境中的作用


halt雖尚未廣泛應用於浸沒式液冷領域,但在揭示浸沒式系統特有的設計漏洞方面具有潛力。將halt適配於浸沒式環境也帶來了新挑戰,尤其是在流體介質中直接施加極端複合應力(熱應力、振動應力和化學應力)方面。傳統的干空氣halt方法可能使硬件通過測試,但這些硬件在接觸流體後卻可能失效,這凸顯了基於浸沒式環境的應力測試的必要性。


構建完整的浸沒式可靠性測試周期


僅持續數天的短期浸沒式評估,可能會忽略那些只有在長期接觸流體後才會顯現的關鍵失效機制。有效的加速測試方案必須復現長期浸沒過程中累積的化學、熱和機械影響,而不僅僅是進行短期測試。


針對浸沒式環境的結構化測試方法需重點關注以下方面:測試矩陣應涵蓋三個關鍵階段:空氣中的乾燥基準測試、完全浸沒運行測試,以及浸沒後的(濕態空氣中的)性能測試。捕捉這一完整周期至關重要,因為組件在浸沒過程中可能吸收流體,即使乾燥後也會改變其機械強度和電氣性能。


在某些情況下,“濕態空氣中”的條件風險最高,因為滯留的流體殘留物(尤其是在多孔材料中)可能在組件重新暴露於空氣時削弱介電強度或加速局部腐蝕。


重新定義浸沒式可靠性的行業標準


浸沒式液冷技術的當前首要解決的任務包括,解決材料在流體環境下的化學降解問題,以及信號完整性偏移問題。與此同時,開放計算項目(ocp)的參與者正在重新評估傳統加速老化模型,並認識到基於空氣冷卻的假設已無法可靠預測浸沒式系統中的退化模式。


也可以從其他行業獲得借鑒。例如,在汽車可靠性測試中,通常會故意引入污染物以模擬長期的實際退化。類似的方法也可用於強化浸沒式驗證:通過故意引入已知的化學降解催化劑,加速通常在多年運行周期中才會出現的失效機制。


如果沒有圍繞流體特定可靠性框架達成共識,浸沒式測試可能因專有方法的碎片化而面臨風險,導致互操作性挑戰並延遲技術普及。通過儘早投入共享方法的研發,企業正助力構建可預測的可靠性路徑和可擴展的浸沒式液冷系統。行業協作只會進一步推動這些工作的統一(如圖4所示)。


浸沒式液冷廣泛應用還需應對哪些挑戰? - 天天要聞


加速實現浸沒式液冷的可靠性


未來兩到三年內,浸沒式液冷技術的發展軌跡將取決於行業能否正式制定流體特定的可靠性標準、擴展實驗室基礎設施,並從早期部署中收集真實場景的性能數據。


當前的當務之急是將基於失效物理(pof)原理的標準化可靠性框架形成規範,以解決材料、機械結構和電氣系統在流體環境中的行為問題。


同樣關鍵的是,從早期浸沒式液冷部署中收集真實失效數據,這對驗證實驗室加速模型和完善長期可靠性預測至關重要。為加速壽命分析、流體-材料兼容性驗證和浸沒後失效評估制定明確的測試協議,是在供應商之間生成一致且可對比數據的關鍵。


擴展對浸沒式兼容測試環境的訪問(如流體老化試驗台、多應力測試平台、環境試驗箱和先進材料表徵系統)對於填補現有數據空白同樣至關重要。如果無法在真實條件下施加化學、熱、機械和電氣複合應力,耐用性預測將始終存在不確定性,從而阻礙大規模部署。


浸沒式液冷的潛在優勢是巨大的:更高的機架密度和更優的散熱裕量均契合人工智能驅動的高性能計算架構的演進需求。


因此,正式制定標準並擴展浸沒式專用測試能力,對於統一可靠性實踐、簡化組件驗證並支持大規模普及至關重要。


需要認識到的是,我們必須在浸沒式生態系統仍在成型之際填補這些技術空白,因為這將決定高性能計算的未來。通過建立清晰的標準並構建嚴謹的流體特定測試框架,行業能夠釋放浸沒式液冷技術的全部潛力,並在未來數十年重塑數據中心的格局。


科技分類資訊推薦

三星Galaxy Z Flip7將全球統一搭載 Exynos 2500,性能不敵小米玄戒 O1 - 天天要聞

三星Galaxy Z Flip7將全球統一搭載 Exynos 2500,性能不敵小米玄戒 O1

【TechWeb】據爆料者 Erencan Yılmaz 透露,三星 Galaxy Z Flip7 會採用全球統一配置,均搭載自家研發的 Exynos 2500 芯片。實際上,三星原本打算將 Exynos 2500 芯片應用於 Galaxy S25 系列。然而,在芯片生產過程中,出現了良率方面的問題,無奈之下,三星放棄使用該芯片,轉而選用驍龍 8 Elite
高性能DDR5內存和固態硬盤選哪個?BIWIN佰維儲存618選購推薦 - 天天要聞

高性能DDR5內存和固態硬盤選哪個?BIWIN佰維儲存618選購推薦

隨着618的到來,各種特價滿天飛,讓遊戲硬件玩家的裝機熱情被重新點燃,作為國內儲存大廠的佰維BIWIN在這段時間也為高性能產品帶來一波特價,讓我們來看看他們家今年該選哪個~BIWIN佰維儲存產品強在哪?A.經得起考驗的可靠性表現對於內存RAM產品來說,穩定性直接關係到整台電腦可靠性問題,BIWIN佰維的內存產品無論在散熱設...
蘋果霸佔一季度全球智能手機暢銷榜前4 小米也有一款進入前10 - 天天要聞

蘋果霸佔一季度全球智能手機暢銷榜前4 小米也有一款進入前10

【TechWeb】5月30日消息,據外媒報道,在當前全球主要的智能手機廠商中,蘋果的機型雖然不多,但得益於強勁的性能,他們每年秋季推出的iPhone,每一款都有可觀的銷量,常年霸佔全球智能手機暢銷榜。有市場研究機構最新發布的報告就顯示,今年一季度全球銷量最高的10款智能手機,就有5款來自蘋果,前4均是蘋果的機型。具體而...
台積電A14製程仍不會採用High NA EUV光刻機 - 天天要聞

台積電A14製程仍不會採用High NA EUV光刻機

5月28日消息,雖然目前英特爾已經在其Intel 18A製程的研發過程中導入了ASML最新的High NA EUV光刻機,但是台積電似乎卻不急於採用這類價格昂貴的設備,即便是尖端的A14製程也將不會採用。此前,台積電業務開發及全球銷售高級副總裁張曉強就曾公開表示,雖然對High NA EUV能力印象深刻,但設備價格超過 3.5 億歐元(3.78 億...
河南跨境電商崛起,走出一批億級大賣! - 天天要聞

河南跨境電商崛起,走出一批億級大賣!

專欄介紹在全球貿易數字化轉型的浪潮中,“跨境電商+產業帶”正在成為驅動我國外貿增長的重要引擎——通過融合我國區域特色產業集聚效應與跨境電商的數字化能力,加速傳統產業轉型升級,並構建起“中國智造”直達全球市場的通道。
有道聽力寶E7 Pro開售!重磅加碼AI攝像頭不加價! - 天天要聞

有道聽力寶E7 Pro開售!重磅加碼AI攝像頭不加價!

5月30日,網易有道正式推出有道聽力寶E7 Pro,首次配置的AI攝像頭帶來了五大學習新功能,同時,多款學習專項APP組成的矩陣,清北教研團隊打造的每日聽單以及全新引入的洪恩超能英語等優質資源,讓這款新一代的聽力口語學習神器快速“出圈”。
realme 真我 Neo7 Turbo 手機維修備件價格公布 - 天天要聞

realme 真我 Neo7 Turbo 手機維修備件價格公布

IT之家 5 月 30 日消息,realme 昨日發布真我 Neo7 Turbo 手機,新品搭載天璣 9400e 芯片以及 7200mAh 電池,首發 1999 元起,國補價 1699.15 元起。IT之家查詢發現,這款新機的維修備件價格現已在官網公布。▲ IT之家圖賞:真我 Neo7 Turbo,下同屏幕 549 元電池 279 元電池蓋組件(黑色)159
演藝經濟“點亮”聲光產業,廣東製造廠商學會用設備“講故事” - 天天要聞

演藝經濟“點亮”聲光產業,廣東製造廠商學會用設備“講故事”

當前,演藝經濟正在成為文旅消費領域的重要增長點,也為廣東乃至中國的專業音響燈光行業指明了轉型升級的方向。5月27日至30日,第23屆廣州國際專業燈光、音響展覽會在廣州廣交會展館舉行。作為專業聲光視聽領域的行業風向標,該展會不僅展現了業內頂尖的技術,更秉承科技賦能文娛的理念,將潮流文化創意植入娛樂消費場景。...