液冷 NVIDIA A100 PCIe GPU 能夠滿足客戶對高性能綠色數據中心的需求,在主流伺服器 GPU 中尚屬首例。
為了遏制氣候變化,全球企業正在加快構建高性能、高能效的數據中心,Equinix 邊緣基礎設施主管 Zac Smith 也參與其中。
他所效力的 Equinix 是一家全球服務提供商,旗下管理的數據中心超過 240 個,致力於在業內率先實現氣候中和。
「一萬家客戶依賴Equinix達成氣候中和的目標。他們需要更大量的數據以及更高水平的智能,而這通常有賴於AI,且他們希望能夠以一種具有可持續性的方式來實現。」Smith 說道。2000 年代初還在茱莉亞音樂學院讀研的他,為紐約的音樂家同僚們搭建了網站,由此與技術結下不解之緣。
能效穩步提升
截至 4 月,Equinix 已發行 49 億美元的綠色債券。Equinix 將通過這些投資工具來優化電源使用效率 (PUE),以期減少對環境的影響。PUE 是一種行業指標,用于衡量數據中心使用的能源有多少直接用於計算任務。
數據中心運營商正試圖將 PUE 降至接近 1.0 的理想水平。Equinix 設施目前的平均PUE為 1.48,而其旗下新數據中心的 PUE 最低可低於 1.2。
從 PUE來看,Equinix 正在穩步提升數據中心的能效(見插圖)
Equinix 於 1 月新啟動了一個專門用於提升能效的設施,在此方向上更進一步。其中一部分工作側重於液冷技術。
液冷技術誕生於大型機時代,在 AI 時代日臻成熟。如今,液冷技術已經以直接晶元(Direct-to-Chip)冷卻的形式廣泛應用於全球高速超級計算機。
NVIDIA GPU 在 AI 推理和高性能計算方面的能效已比 CPU 高出 20 倍, 而加速計算也順理成章地將採用液冷技術。
通過加速提高效率
如果將全球所有運行 AI 和 HPC 的 CPU 伺服器切換為 GPU 加速系統,每年可節省高達 11 萬億瓦時的能源。節約的能源量可供 150 多萬套房屋使用一年。
今日,NVIDIA 發布了率先採用直接晶元(Direct-to-Chip)冷卻技術的數據中心 PCIe GPU,為可持續發展貢獻了自己的力量。
Equinix 正在驗證 A100 80GB PCIe 液冷 GPU 在其數據中心的應用,這也是該公司為實現可持續性冷卻和熱量捕獲的綜合性方案中的一部分。GPU 現已進入試用階段,預計將於今年夏季正式發布。
節約用水和用電
「這是我們實驗室中引入的首款液冷 GPU,我們倍感興奮,因為客戶迫切希望通過可持續的方式來利用 AI,」Smith 說道。
數據中心運營商旨在淘汰用於冷卻數據中心內部氣體的冷水機組,因其每年會蒸發數百萬加侖的水量。而藉助液冷技術,系統僅需對封閉系統中的少量液體進行循環利用,並能夠著重於主要的發熱點。
Smith說: 「我們將變廢為寶。」
同等性能,更少耗電
在單獨的測試中,Equinix 和 NVIDIA 均發現:採用液冷技術的數據中心工作負載可與風冷設施持平,同時消耗的能源減少了約 30%。NVIDIA 估計,液冷數據中心的 PUE 可能達到 1.15,遠低於風冷的 PUE 1.6。
在空間相同的條件下,液冷數據中心可以實現雙倍的計算量。這是由於 A100 GPU 僅使用一個 PCIe 插槽,而風冷 A100 GPU 需使用兩個 PCIe 插槽。
NVIDIA 藉助液冷技術達到了節省電力和增加密度的效果
至少有十幾家系統製造商計劃於今年晚些時候在其產品中使用液冷 GPU,包括華碩(ASUS)、永擎電子(ASRock Rack)、富士康工業互聯網(Foxconn Industrial Internet)、技嘉科技(GIGABYTE)、新華三(H3C)、浪潮(Inspur)、英業達(Inventec)、寧暢(Nettrix)、雲達科技(QCT)、 超微(Supermicro)、 緯穎科技(Wiwynn)和超聚變(xFusion)。
全球趨勢
在亞洲、歐洲和美國,制定能效標準的法規尚未確定。這也推動了銀行和其他大型數據中心運營商紛紛加入液冷技術評估的隊伍。
液冷技術的使用範圍並不局限於數據中心,汽車和其他系統也需要利用該項技術來冷卻封閉空間內的高性能系統。
可持續發展之路
「我們即將開啟新的旅程,」Smith談及這一採用液冷技術的主流加速器首次亮相時如是說。
事實上,NVIDIA計劃於明年推出的一版 A100 PCIe 卡中搭載基於 NVIDIA Hopper 架構的 H100 Tensor Core GPU。近期內,NVIDIA計劃將液冷技術應用於自有高性能數據中心 GPU 和 NVIDIA HGX 平台。
為推動快速採用,今日發布的液冷 GPU 可在減少能耗的同時維持性能不變。未來,我們期望這些卡在使用同等能源的條件下,展現更出色的性能,滿足用戶所需。
「僅僅測量功率沒有意義,降低碳排放的同時提升性能才是我們努力的方向,」 Smith 說道。
詳細了解NVIDIA全新發布的 A100 PCIe 液冷 GPU。