隨着AI的發展,推動算力需求激增,同時高密度的發展也直接或間接推動冷卻系統的革命進程。液冷的推動是基於節能考慮還是服務器散熱需求所致,本篇從液冷系統的基本原理介紹到目前行業巨頭液冷架構的實踐間接,進行了詳細分析,並對未來浸沒式液冷和兩相冷板技術進行了簡要概述,相信讀完會有更深的認識。
現在讓我們來討論一下英偉達的路線圖,以及數據中心設計的近期和長期未來,以及影響的設備供應商。我們相信,採用液體冷卻背後的真正驅動因素仍然被誤解了,對於推理和訓練數據中心的冷卻系統的未來也被誤解了。我們經常聽說,採用液體冷卻技術是由優越的能源效率驅動的,或者因為用空氣冷卻>1000W芯片是不可能的。我們也經常聽說,推理將需要低功耗的服務器和空氣冷卻。
1
AIDC液體冷卻的興起以及GenAI系統路線圖
大規模採用液體冷卻背後的真正驅動因素是GenAI計算的總擁有成本(TCO)。雖然有些人認為液體冷卻是昂貴的,但與一個系統的生命周期(~15年)的總成本相比,IT設備在類似的時間框架內的總壽命成本要低得多。充分利用IT設備是真正重要的——這就是液體冷卻的全部意義,使GPU和人工智能加速器在物理上更接近彼此,允許更多的加速器作為一個計算團隊一起工作。
英偉達的GB200 NVL72為LLM推斷提供了最佳的TCO,與Hopper系統相比,其性能提高了高達10倍。這在很大程度上是由於可擴展的網絡NVlink從8個GPU擴展到72個GPU——只有通過增加機架密度和每個機架內的數千個銅鏈路才能實現。英偉達的路線圖是明確的,並逐步將通過NVlink連接的500+圖形處理器的機架密度推向1MW。像trainiumandtpu這樣的定製AI加速器共享類似的路線圖——增加密度,通過更快的擴展和擴展網絡實現更高的性能。下面來自維諦的幻燈片提供了英偉達路線圖的簡化概述。
而關鍵的客戶也有同樣的抱負。在2024年OCP全球峰會上,谷歌討論了開發多達1兆瓦IT機架的計劃。為了實現這一點,動力機架將離開機架,並將引入側板「動力機架」。配電電壓將從48V DC上升到+-400V DC。英偉達與Rubin有類似的計劃,但保留48V。
Meta和微軟最近建立了一個夥伴關係,開發一個類似的解決方案——Mt。暗黑破壞神的項目。關鍵概念是「分解電源」,電源架從機架上移到一個專用的側板。
微軟和Meta也對他們的1MW野心非常開放,如下所示。和谷歌一樣,一個關鍵的原因是不斷上升的配電電壓——48V DC配電母線將被+-400V DC取代。除了提高效率,這是增加密度的關鍵:一個48V DC銅氣泡驅動500 kW機架需要56毫米直徑和重量47公斤/ 103磅,而+-400V DC(即有效電壓800V)只有14毫米直徑和重量3公斤/ 6.5磅!
現在讓我們退一步,討論一下液體冷卻到底是什麼,以及它與空氣冷卻的比較。這份報告將主要集中在冷板式液冷(DLC)——我們將在最後簡要介紹浸沒,但未來的文章將更深入地研究這個主題。
首先,當我們談到液體冷卻時,我們特別指的是芯片或服務器的液體冷卻,而不是空氣處理器和風扇的液體冷卻。如前所述,許多數據中心已經使用設施中的水迴路(液體)來去除數據大廳里的熱量,但很少有人使用液體來去除芯片或服務器上的熱量。幾十年來,液體冷卻已經為不同行業的小眾用例實現了,包括60年代用於冷卻IBM大型機的數據中心!然而,在現代數據中心,空氣冷卻主要是首選,因為:
● 它通常更便宜,更簡單,空氣冷卻的供應鏈已經建立。
● 隨着設備規模的擴大,風冷技術也得到了改進,並在保持能源效率的同時,每個機架的功率密度也不斷上升。
因此,雖然許多參與者同意液體冷卻通過降低能源消耗(通常通過減少或移除服務器風扇功率)可以實現運營成本節省(約10%),但與液體冷卻更高的資本支出、增加的複雜性和運營風險以及不太了解的供應鏈相比,這不足以成為轉向液體冷卻的強烈動機。眾所周知,液體冷卻可以實現更高密度,從而節省空間——但物理空間對數據中心來說是一個小成本項目,因為大多數成本是由關鍵IT功率衡量的。
液體之所以更有效率,並且可以允許更高的密度,是因為它每單位體積吸收的能量比空氣多4000倍。在能源效率方面,這被泵和複雜的管道需求部分抵消:水的密度比空氣大830倍,這使得移動更加困難。
注意,液體流量和泵送能量有線性關係。然而,通過DLC增加機架密度有它自己的一系列挑戰——特別是在管道和管道工程。超高的密度可能需要非常大的管道和昂貴的材料。
如今,風冷仍然是人工智能領域的主導技術。英偉達針對H100數據中心部署的參考設計為每個機架最多提供4颱風冷服務器,總計41 kW。參考設計解釋說,在大多數風冷數據中心,冷卻過載經常限制操作員每行安裝8個GPU服務器機架(以及另外兩個用於存儲和網絡設備),這意味着在這個設計中有8個機架是空的!然而,也有可能進一步增加密度——一些技術,如冷門背板(RDHx)或櫃內空氣密封技術,如DDC櫃技術,使每個機架的密度超過50kW。
密度的主要限制原因之一是在服務器級別。高TDP芯片需要一個更大的散熱器——這就是為什麼擁有8個圖形處理器的英偉達 HGX服務器往往非常大(8RU),而這種TDP和散熱需求將在未來一代中增加,如風冷的Blackwell SKUs.
相比之下,在服務器中引入液體可以在類似的功率消耗下實現更緊湊的設計。英偉達為 Blackwell的大多數sku選擇了直接到芯片的單相技術:這種設計包括使用直接放置在最熱門的芯片(GPU和CPU)上的銅板。風扇仍然需要風扇移除非液體冷卻過的部件中剩餘的熱量,如網卡、存儲器和收發器——最高可達機架總散熱量的15%。
這些金屬板被提供了冷水,送出溫水。這個水環管通過機架內的一個分集水器流動。
該迴路通常由一個冷卻液分配單元(CDU)來處理,如下圖所示。
CDU可以是大的和集中的排在列內的單元(1MW+容量),也可以是更小的機架內的單元(~100kW為4U)。對於大型部署,行內部署通常是首選,因為它更便宜,而且維護更容易(組件更少)。然而,考慮到上市時間的基本價值,以及供應鏈相對較新,如果出現問題,終端客戶希望「指向」一家供應商,而不是進行長時間的指責會議,試圖確定故障所在。因此,像超微這樣的OEM的集成機架解決方案供應商在大規模部署中獲得了一定的吸引力。在這兩種情況下,CDU都位於IT機房內。
下圖顯示了真實生活中的CDU:一個是Rittal的行CDU(1MW冷卻能力),另一個是機櫃底部機架內的CDU,冷卻能力為80 kW。
02
數據中心冷卻系統的未來
在設施層面上,未來兩年將會出現三種主要類型的部署。第一種是使用液對空氣(L2A)熱交換器。由於L2A系統的高成本和固有的低效率,這是效率最低也是最昂貴的選擇。由於GB200 NVL36/72需求與適合DLC的數據中心容量不匹配,這可以被認為是一個「橋樑」。
許多為空冷而優化的數據中心(如我們之前介紹的微軟和AWS設計)仍在建設中,但其任務是部署GB200——這裡唯一的解決方案是使用L2A。L2A熱交換器不需要設施水平的管道。在L2A側和IT機架的DLC系統之間運行一個封閉的液體冷卻迴路,將熱回液泵入L2A側,從而冷卻液體並將其送回IT機架。然後,L2A單元使用散熱器和強大的風扇將熱量從液體轉移到熱空氣到熱通道。標準的設施級系統,如免費空氣冷卻,然後可以從數據大廳去除熱量。
根據英偉達的說法,這種L2A系統的TCO明顯更高,甚至比標準的風冷系統更高。我們不知道這個計算背後的基本假設是什麼,但我們暫且贊同這個結果。
正在採用的第二種選擇是一個「混合」冷卻系統,其中一個集中冷水系統廠可以從空氣和液體中去除熱量。CDU (L2L,無論是機架內還是行內)和CRAH/風扇牆與普通冷凍水管道系統交換熱量-如維諦的以下設計所示。正如我們在GB200硬件架構報告中解釋的,只有GPU和NVLink開關是DLC冷卻的,而 NICs, CPUs和許多其他各種IT設備仍然是風冷的。英偉達的GB200設計要求運營商通過DLC提供85%的冷卻,剩下的15%仍然通過空冷。
下面來自維諦的示例展示了這樣的布局的樣子。
我們預計大多數數據中心將在2025年和2026年採用這種混合部署。許多人仍然不確定確切的液體和空氣冷卻混合,而混合動力系統提供了靈活性來處理這個比率的輕微變化。許多數據中心運營商目前正在宣傳他們部署和改造DLC的能力。這是因為,如前所述,大多數主機託管數據中心已經有了一個集中冷水系統。
理論上,改造工作很簡單--在數據機房內新建管道系統,並讓CDU從現有的集中水系統中「斷開」。在實踐中,我們認為許多運營商由於缺乏標準化而陷入困境,儘管可以完成改造工作,但成本相對較高。數據中心有不同的集中水管道系統(流量、壓力、直徑等)和流體混合(用於設施冷卻的水,而水和乙二醇的混合物用於DLC內部迴路,但會有所不同)。 市場上可獲得的CDU可能不符合所需的規格,而且大多數CDU由於缺乏標準而彼此不同。因此,大多數運營商必須使用新的設計來構建數據中心,以容納L2L液體冷卻。另一個問題是,使用一個共享設施水循環意味着數據大廳冷卻設備(CDU和空氣處理機)被迫使用相同的設施水,其溫度可能對於兩者都不是最優的。
混合動力系統的第二個問題是能源效率。下圖來自OVHCloud,這是一家法國雲服務提供商,它使用DLC進行CPU冷卻已經超過20年了!雖然密度遠低於英偉達的>130KW,但我們仍然可以看到這個問題。
混合冷卻的問題是需要適應具有不同傳熱性能的系統。液對液熱交換器(如板式熱交換器)具有最好的性能,而空氣對液(A2L)熱交換器的效率明顯較低。在這種情況下,OVH同時使用DLC和RDHx(即機架內的A2L)與相同的設施水系統。由於傳熱性能較差,我們必須在明顯較低的入口溫度下操作RDHx(或中央風扇牆或CRAH)。在這種情況下,相比於DLC系統的溫度為45℃,這個需要採用30℃。由於這兩個系統共享一個共同的中央水系統,OVH被迫將設施中的水冷卻到27℃。它們的1.26度仍然令人羨慕,但這得益於它們的地理位置在法國特別偏北部地區。
專用冷卻系統
在這種配置下,DLC專用系統可以在明顯更高的溫度下運行。施耐德的參考設計指向一個37℃的入口溫度和47℃的出口溫度。在這些條件下,DLC冷卻迴路很可能可以使用沒有絕熱輔助的乾式冷卻器全年運行——能量和水被最小化。低PUE的影響可能是顯著的——在人工智能時代,持續的電力短缺,每一個兆瓦都很數。通過電網保護200兆瓦的數據中心運營商將在1.15峰值為IT設備提供174MW,而在1.3峰值為154MW。
專用的冷卻系統通常通過放大餘量滿足一定程度的靈活性。例如,一個100MW的數據中心可以有85MW的DLC冷卻能力和25MW的空氣冷卻能力。然而,運營商建造這樣一個設施的風險是,GenAI和液體冷卻系統的採用會逐漸消失。
專用的冷卻系統通常通過過大尺寸涉及一定程度的靈活性。例如,一個100MW的數據中心可以有85MW的DLC冷卻能力和25MW的空氣冷卻能力。然而,運營商建造這樣一個設施的風險是,GenAI和液體冷卻系統的採用會逐漸消失。
03
行業巨頭的設計和路線圖-CDU的終結?
我們之前解釋過,微軟、Meta和AWS數據中心通常經過風冷優化。因此,L2A是快速部署GB200 NVL36/72的主要選擇。但展望2025年的部署,行業巨頭已經做出了反應,推出了新的設計。最引人注目的轉變是Meta,正在建造的「H」被廢棄,轉而建造一個新的人工智能設計——建造速度更快,密度更大,並且有專用的水系統。
新的設計採用了風冷冷卻器和一個同時處理空氣和水的「混合」系統。它將保持同行業最好的水利用效率,但我們預計PUE會上升——我們不確定到底有多少,可能從目前的1.08水平上升至超過1.10。
微軟最初採用了一種不同的策略。該公司繼續開發其「巴拉德」數據中心,但僅選定地點的在很少部分引入了一種新的超密集設計。
新設計採用了水冷冷卻器和乾冷卻器(絕熱輔助)——後者的「V型」設計類似於開式冷卻塔,與典型的乾冷卻器相比,提高了空間利用效率。
最近,這家科技巨頭推出了巴拉德設計的變體,在亞利桑那州鳳凰城推出。這是一個「混合」系統,CDU和風牆共享一個集中的設施水系統,並依賴於傳統的風冷冷水機。
AWS也宣布向DLC轉變,但我們還沒有看到該公司的任何新的數據中心設計提供足夠的設施水平流體冷卻器,如乾冷卻器或冷卻塔。該公司的下一代設施仍然為空氣冷卻進行了優化。因此,我們相信,該公司在2025年進行的大部分GB200部署都將使用L2A系統。
最後,讓我們討論谷歌。該公司已經部署液冷芯片已經十多年了。其目前的數據中心設計是一個同時容納空氣和液體的混合系統,但該公司在OCP 2024上披露了一個有趣的路線圖。隨着機架密度向1兆瓦移動,機架內CDU將不是一個選擇,甚至行內CDU也將不夠。這種設備通常的容量為1MW,最高容量為2MW——每個機架將需要一個專用的側板CDU。
谷歌正在評估完全清除CDU,並將設施中的冷凍水直接送入機架。我們之前討論了該行業缺乏標準化的問題,我們認為「冷凍水直接到機架」的解決方案不太可能出現在更廣泛的生態系統中。然而,像谷歌這樣的上下游整合公司控制着從芯片(TPU)到數據中心的整個系統,可以從頭開始設計一個系統來滿足這些要求。
04
設備供應商形勢
在本報告的最後一部分中,我們將討論供應商的情況。我們已經建立了一個供應商跟蹤器,覆蓋了150個+設備和服務供應商,與數據中心的收入暴露和產品細分。
數據中心冷卻空間有兩個不同的類別:傳統的設施級設備和液體冷卻專用系統。
在第一類中,市場動態類似於電氣系統,但通常在一個更加分散和競爭激烈的環境中。在這一類有許多非常大的公司,包括數據中心設備巨頭,如維諦技術和施耐德電氣,還有全球領先的暖通公司,如開利、江森自控和特靈,以及一些大型數據中心和純空調設備,如世圖茲。與電氣設備供應商相比,這種市場結構導致毛利率較低,但營業利潤率仍然很健康,每個人都將從市場動態中受益。數據中心的資本支出的繁榮仍然被低估了。
在這個市場中,一些公司專註於特定類別,有贏家也有輸家。例如,過度暴露於空氣側節能系統的公司可能會相對損失,因為超大規模的自建設計從自由空氣冷卻轉向設施水循環。
另一個可能相對損失的產品類別是開式冷卻塔,因為數據中心規模的激增將限制有足夠可用水的場地。如果谷歌轉向乾式系統,一家美國上市供應商將受到嚴重的影響。
另一個關鍵領域是液體冷卻設備-引發了大量的關注和討論,特別是許多來自台灣的新進入者試圖挑戰像Vertiv這樣的老牌公司,而一些巨頭在技術和設備組合方面因依賴併購而措手不及(施耐德電氣/Motivair)。雖然L2A解決方案應被視為「橋樑」,但它們仍可能在2025年大規模採用,這將推動最大供應商的收入大幅增長-原因是每MW的價格非常高。 對於L2L系統,我們認為有幾家公司正面臨可靠性問題,但一家在美國上市的公司表現特別出色,並有望獲得顯著的市場份額。
05
DLC是一個可以被浸沒式所取代的臨時解決方案嗎?
最後,我們想簡要介紹一下未來的冷卻技術。雖然今天的單相DLC將會出現大規模增長,但目前正在進行研發工作,以開發兩相解決方案和浸沒式冷卻。我們經常聽到浸沒式冷卻是最終的解決方案,或者兩相比單相DLC更有效。
我們將在今後的報告中詳細探討這些技術。作為一個簡短的預告片,我們只能說,我們相信市場正在誤解這些系統背後的物理原理。浸入式通常被描述為進一步增加機架密度的下一個解決方案,但我們不同意。強迫水對流即DLC比自由對流具有更好的傳熱性能。雖然目前仍在努力改善浸沒式散熱器,但其峰值密度仍然低於DLC。
兩相的DLC也被探索,雖然有警告和短期問題,但該技術更有前途。英偉達數據中心冷卻和基礎設施主管的演示顯示,兩相已成為擴展其系統機架密度的關鍵技術。
06
甲骨文和位元組跳動在PTC 2025上熱議
上周,我們派遣了兩位出色的團隊成員參加了在夏威夷檀香山舉行的 2025 年太平洋電信會議。有一些重量級公司出席了會議,包括 Microsoft、Oracle、DayOne (FKA GDS)、CtrlS、AirTrunk、Ciena、STT 和 ByteDance。這是一場不容錯過的活動。
在那裡,我們聽到了很多關於冷卻領域即將到來的發展,以及關於未來 GPU 部署和地理風險的討論。在柔佛州,我們確認,只要獲得 NVEU 例外,Oracle 應該會在 2025 年上半年部署其液冷集群。總體而言,只有少數運營商進行了液冷部署,而且許多運營商仍然保持謹慎。我們仍然認為,馬來西亞的 130kW 機架建設仍然是全球最激進的建設項目之一。許多運營商指出,實施 Direct-to-Chip 液體冷卻的成本非常高且難度很大,尤其是當 DtC 的入口溫度需要使用冷水機冷卻時,增加了成本並惡化了 PUE。此外,許多主機託管提供商向我們證實,他們更願意與成熟的設備供應商合作(特別點名施耐德電氣和維諦),而不是引入新貴冷卻組件供應商。