浸没式液冷广泛应用还需应对哪些挑战?

2025年05月29日08:20:13 科技 5798

(本文编译自electronicdesign)


由于人工智能(ai)和高性能计算(hpc)的兴起,数据中心的工作负载持续激增,传统的空气冷却方法已逐渐接近实际应用的极限。随着热负载的增加和密度要求的提升,数据中心运营商迫切需要寻找新的散热管理方案。浸没式液冷已成为一条充满前景的发展路径。


然而,这一转变暴露出行业在定义和测试组件可靠性方面存在的显著漏洞。为空气冷却环境制定的标准,从未考虑过组件完全浸没在介电流体中时的材料性能表现。鉴于架构设计和性能方面的新需求,老化模型、故障模式甚至组件耐用性的基本假设等关键因素都需要重新考量。


这一变革正在重塑数据中心运营商评估组件可靠性的方式。支持空气冷却系统的现有标准曾发挥过重要作用,但如今必须升级以应对浸没式液冷环境带来的新挑战。


尽管空气冷却标准长期为系统规划提供指导,但浸没式液冷引入了一套不同的老化机制和材料挑战。为了跟上发展步伐,工程师和开放计算项目(ocp)等行业组织正携手合作,基于真实的浸没式液冷条件构建测试框架。这一转变凸显了空气冷却系统与浸没式液冷系统在设计和可靠性方面的显著差异(见图1)。


浸没式液冷广泛应用还需应对哪些挑战? - 天天要闻


浸没式液冷技术如何重构系统设计挑战?


浸没式液冷消除了气流限制,但要求从根本上重新思考基础设施、材料选择和系统设计等方面。传统的空气冷却系统依赖风扇和散热器,如今在管理组件热设计功率(tdp)方面面临越来越大的挑战——目前的组件tdp通常超过300瓦,许多下一代gpu和ai加速器甚至突破了400瓦的临界阈值。一旦超过这一阈值,气流往往不足以维持安全工作温度。


为了弥补这一差距,许多数据中心运营商最初转向冷板冷却技术,该技术通过将液体直接循环至最热的组件来改善热传递。然而,尽管这种方法比空气冷却更能应对更高的芯片密度,冷板解决方案却带来了大量的管道布置、复杂的机架级热交换器集成,以及额外的机械故障点,包括管道和连接处泄漏的风险。


随着计算负载持续攀升,无论是单相还是双相的全浸没式冷却,正成为克服空气冷却和冷板系统结构与散热限制的下一个选择。通过将服务器完全浸没在介电流体中,浸没式液冷从根本上避开了气流限制。


与传统空气冷却相比,浸没式液冷潜在的节能效果(通常称可达30%)取决于多个因素,包括使用的特定浸没式技术、基准空气冷却系统的电源使用效率(pue)、气候条件以及it负载的特性。在最佳条件下,这可能显著提升能源效率。然而,实现这些收益需要的不仅仅是对现有硬件的改造。


浸没式液冷改造面临的挑战


改造现有数据中心往往面临严峻挑战。许多传统数据中心使用高架地板,但这些地板并非为支撑浸没式液冷水箱的重量和密度而设计。升级此类站点通常需要花费高昂的成本进行结构加固,同时还需添加浸没式液冷所需的系统,如热交换器、流体管道和维护通道。


鉴于这些结构和基础设施方面的挑战,大多数新的浸没式液冷部署正转向专门建造的“ai工厂”环境——这类环境的地板支撑、冷却基础设施和空间布局均针对浸没式架构进行了专门设计。


在新建数据中心中,浸没式液冷可实现更高的机架密度和更优的散热控制,但这一优势仅在基础设施为浸没式系统专门设计时才能实现。


基于空气冷却标准的局限性


浸没式液冷虽具备显著的散热优势,但也暴露出传统可靠性框架的不足。现存的大多数标准旨在模拟材料在空气中的老化过程——在这种环境下,氧化(而非化学相互作用)是导致故障的主要因素。而在介电流体内部,氧化过程会显著减缓。


取而代之的是热化学降解风险,包括潜在的水解反应、材料膨胀,以及添加剂逐渐渗入流体等现象,这些已成为主要风险。随着时间推移,此类化学变化会削弱材料的机械性能,进而影响它们的长期可靠性。诸如混合气流老化测试等传统方法,其初衷是通过让材料暴露于二氧化硫、二氧化氮等反应性气体中来模拟空气中的腐蚀情况,但这类方法已无法匹配流体环境中的实际失效机制。


除了上述在可靠性标准方面遇到的挑战,浸没式液冷在热设计和机械设计方面也面临着一些问题。


当涉及数据中心的液冷技术时,即使是关于热行为的基本假设也需要转变。组件温升限制(通常相对于环境空气定义,例如温升30°c)无法直接套用,因为核心因素始终是组件的结温(tj)。


流体能更高效地从表面带走热量,允许整体流体温度有一定的潜在升高(无论是40°c、50°c或更高)。然而,目前行业尚未就标准化的安全工作流体温度阈值达成共识,这些阈值需确保不同硬件的结温(tj)均处于可接受范围。


机械应力的表现也有所不同。在流体中,振动和冲击会被抑制,这虽然掩盖了传统的疲劳模式,但引入了新的机械考量,例如组件受到的浮力效应或流体动力学产生的应力,这些均未被基于空气冷却的模型纳入考量。


长期以来,尽管加速老化表都为空气环境中的可靠性预测提供指导,但浸没式液冷领域尚未有与之匹配的表格。缺乏这些数据,制造商不得不从不完整或不匹配的数据中推断组件耐用性。随着浸没式液冷从试点项目转向大规模生产部署,这是一个充满风险的命题。


基于空气冷却的标准已不再适用于沉浸式环境中占主导地位的化学和机械失效模式(如图2所示)。对流体特定可靠性模型的需求已不再停留在理论层面,而是一个日益扩大的缺口,必须加以填补以支持下一代高性能数据中心的发展。


浸没式液冷广泛应用还需应对哪些挑战? - 天天要闻


早期浸没式液冷部署观察


尽管业界对浸没式液冷的兴趣与日俱增,但当前大多数部署仍依赖对空气冷却硬件的改造,而非专门为浸没式环境设计的架构。许多早期部署只是简单地将风冷服务器浸没在介电流体中,可用“一浸了之,听天由命”来形容。这种方法会立即暴露出兼容性问题,且几乎无法为长期标准制定提供可用的可靠性数据。


如果没有专门为浸没式液冷设计的硬件,就很难从现场经验中分离出真正的失效机制或构建可靠的老化模型。许多基于空气冷却假设设计的早期系统,在流体环境中因设计过度而掩盖了潜在的可靠性风险,同时也未能充分发挥效率提升的潜力。


浸没式液冷中的电气与互连挑战

浸没式液冷广泛应用还需应对哪些挑战? - 天天要闻


电气方面的挑战也逐渐显现。由于介电流体的介电常数(dk)和介电损耗(df)高于空气,高速连接器会出现更显著的信号衰减和阻抗偏移,尤其是在高频场景下。如果不加以解决,这些影响将降低系统带宽和吞吐量,因此专用互连技术成为下一代设计的核心需求。


浸没式液冷技术专用硬件创新机遇


与此同时,浸没式液冷环境也带来了大量新机遇。近期的测试表明,最初为空气冷却设计的电源连接器在完全浸没时可承载超过其额定电流150%的负载。未来针对浸没式液冷优化的设计可能将铜材用量减少多达一半,同时仍满足严苛的热管理和电气要求,支持更紧凑、高效的配置。


借助真正针对浸没式液冷优化的框架,行业可以重新思考系统设计的基础层面,包括机架密度、基于流体的热管理以及长期机械耐久性。专用系统将实现更小巧的外形尺寸和更高的散热裕量,同时增强对流体环境中新型化学和机械应力的抵御能力。


调整加速寿命测试并引入新策略


随着浸没式液冷技术被更广泛的应用,可靠性测试方法也必须随之演进,以反映基于流体环境的实际情况。


加速寿命测试(alt)仍是核心方法,但其在浸没式液冷中的应用需要调整。由于传统老化模型不再适用,行业开始应用失效物理(pof)原理,识别材料、结构和电气路径在真实浸没式条件下的退化方式,从而从头开始定义可靠性。


传统的加速模型,如用于热老化的阿伦尼乌斯模型,可能需要修订,以纳入化学反应动力学和流体-材料相互作用,这可能会改变标准加速因子。浸没式环境还需要补充策略:失效测试(ttf)技术在识别材料膨胀、密封件化学软化以及电气性能逐渐变化等风险方面变得愈发重要。


整合复合应力因素以实现真实场景测试


如今,有效的可靠性测试需要整合多个并发应力因素。必须综合评估热循环、机械负载、化学降解和电信号偏移,以全面表征系统随时间的行为变化。基于氧化老化和热应力松弛的框架(曾足以满足空气冷却需求)已不再适用。


新模型(很可能基于失效物理(pof)方法)必须考虑热化学降解动力学、流体-材料兼容性,以及浸没式液冷引入的独特机械负载,如浮力和流体动力。


探索高加速寿命测试(halt)在浸没式环境中的作用


halt虽尚未广泛应用于浸没式液冷领域,但在揭示浸没式系统特有的设计漏洞方面具有潜力。将halt适配于浸没式环境也带来了新挑战,尤其是在流体介质中直接施加极端复合应力(热应力、振动应力和化学应力)方面。传统的干空气halt方法可能使硬件通过测试,但这些硬件在接触流体后却可能失效,这凸显了基于浸没式环境的应力测试的必要性。


构建完整的浸没式可靠性测试周期


仅持续数天的短期浸没式评估,可能会忽略那些只有在长期接触流体后才会显现的关键失效机制。有效的加速测试方案必须复现长期浸没过程中累积的化学、热和机械影响,而不仅仅是进行短期测试。


针对浸没式环境的结构化测试方法需重点关注以下方面:测试矩阵应涵盖三个关键阶段:空气中的干燥基准测试、完全浸没运行测试,以及浸没后的(湿态空气中的)性能测试。捕捉这一完整周期至关重要,因为组件在浸没过程中可能吸收流体,即使干燥后也会改变其机械强度和电气性能。


在某些情况下,“湿态空气中”的条件风险最高,因为滞留的流体残留物(尤其是在多孔材料中)可能在组件重新暴露于空气时削弱介电强度或加速局部腐蚀。


重新定义浸没式可靠性的行业标准


浸没式液冷技术的当前首要解决的任务包括,解决材料在流体环境下的化学降解问题,以及信号完整性偏移问题。与此同时,开放计算项目(ocp)的参与者正在重新评估传统加速老化模型,并认识到基于空气冷却的假设已无法可靠预测浸没式系统中的退化模式。


也可以从其他行业获得借鉴。例如,在汽车可靠性测试中,通常会故意引入污染物以模拟长期的实际退化。类似的方法也可用于强化浸没式验证:通过故意引入已知的化学降解催化剂,加速通常在多年运行周期中才会出现的失效机制。


如果没有围绕流体特定可靠性框架达成共识,浸没式测试可能因专有方法的碎片化而面临风险,导致互操作性挑战并延迟技术普及。通过尽早投入共享方法的研发,企业正助力构建可预测的可靠性路径和可扩展的浸没式液冷系统。行业协作只会进一步推动这些工作的统一(如图4所示)。


浸没式液冷广泛应用还需应对哪些挑战? - 天天要闻


加速实现浸没式液冷的可靠性


未来两到三年内,浸没式液冷技术的发展轨迹将取决于行业能否正式制定流体特定的可靠性标准、扩展实验室基础设施,并从早期部署中收集真实场景的性能数据。


当前的当务之急是将基于失效物理(pof)原理的标准化可靠性框架形成规范,以解决材料、机械结构和电气系统在流体环境中的行为问题。


同样关键的是,从早期浸没式液冷部署中收集真实失效数据,这对验证实验室加速模型和完善长期可靠性预测至关重要。为加速寿命分析、流体-材料兼容性验证和浸没后失效评估制定明确的测试协议,是在供应商之间生成一致且可对比数据的关键。


扩展对浸没式兼容测试环境的访问(如流体老化试验台、多应力测试平台、环境试验箱和先进材料表征系统)对于填补现有数据空白同样至关重要。如果无法在真实条件下施加化学、热、机械和电气复合应力,耐用性预测将始终存在不确定性,从而阻碍大规模部署。


浸没式液冷的潜在优势是巨大的:更高的机架密度和更优的散热裕量均契合人工智能驱动的高性能计算架构的演进需求。


因此,正式制定标准并扩展浸没式专用测试能力,对于统一可靠性实践、简化组件验证并支持大规模普及至关重要。


需要认识到的是,我们必须在浸没式生态系统仍在成型之际填补这些技术空白,因为这将决定高性能计算的未来。通过建立清晰的标准并构建严谨的流体特定测试框架,行业能够释放浸没式液冷技术的全部潜力,并在未来数十年重塑数据中心的格局。


科技分类资讯推荐

三星Galaxy Z Flip7将全球统一搭载 Exynos 2500,性能不敌小米玄戒 O1 - 天天要闻

三星Galaxy Z Flip7将全球统一搭载 Exynos 2500,性能不敌小米玄戒 O1

【TechWeb】据爆料者 Erencan Yılmaz 透露,三星 Galaxy Z Flip7 会采用全球统一配置,均搭载自家研发的 Exynos 2500 芯片。实际上,三星原本打算将 Exynos 2500 芯片应用于 Galaxy S25 系列。然而,在芯片生产过程中,出现了良率方面的问题,无奈之下,三星放弃使用该芯片,转而选用骁龙 8 Elite
高性能DDR5内存和固态硬盘选哪个?BIWIN佰维储存618选购推荐 - 天天要闻

高性能DDR5内存和固态硬盘选哪个?BIWIN佰维储存618选购推荐

随着618的到来,各种特价满天飞,让游戏硬件玩家的装机热情被重新点燃,作为国内储存大厂的佰维BIWIN在这段时间也为高性能产品带来一波特价,让我们来看看他们家今年该选哪个~BIWIN佰维储存产品强在哪?A.经得起考验的可靠性表现对于内存RAM产品来说,稳定性直接关系到整台电脑可靠性问题,BIWIN佰维的内存产品无论在散热设...
苹果霸占一季度全球智能手机畅销榜前4 小米也有一款进入前10 - 天天要闻

苹果霸占一季度全球智能手机畅销榜前4 小米也有一款进入前10

【TechWeb】5月30日消息,据外媒报道,在当前全球主要的智能手机厂商中,苹果的机型虽然不多,但得益于强劲的性能,他们每年秋季推出的iPhone,每一款都有可观的销量,常年霸占全球智能手机畅销榜。有市场研究机构最新发布的报告就显示,今年一季度全球销量最高的10款智能手机,就有5款来自苹果,前4均是苹果的机型。具体而...
台积电A14制程仍不会采用High NA EUV光刻机 - 天天要闻

台积电A14制程仍不会采用High NA EUV光刻机

5月28日消息,虽然目前英特尔已经在其Intel 18A制程的研发过程中导入了ASML最新的High NA EUV光刻机,但是台积电似乎却不急于采用这类价格昂贵的设备,即便是尖端的A14制程也将不会采用。此前,台积电业务开发及全球销售高级副总裁张晓强就曾公开表示,虽然对High NA EUV能力印象深刻,但设备价格超过 3.5 亿欧元(3.78 亿...
河南跨境电商崛起,走出一批亿级大卖! - 天天要闻

河南跨境电商崛起,走出一批亿级大卖!

专栏介绍在全球贸易数字化转型的浪潮中,“跨境电商+产业带”正在成为驱动我国外贸增长的重要引擎——通过融合我国区域特色产业集聚效应与跨境电商的数字化能力,加速传统产业转型升级,并构建起“中国智造”直达全球市场的通道。
有道听力宝E7 Pro开售!重磅加码AI摄像头不加价! - 天天要闻

有道听力宝E7 Pro开售!重磅加码AI摄像头不加价!

5月30日,网易有道正式推出有道听力宝E7 Pro,首次配置的AI摄像头带来了五大学习新功能,同时,多款学习专项APP组成的矩阵,清北教研团队打造的每日听单以及全新引入的洪恩超能英语等优质资源,让这款新一代的听力口语学习神器快速“出圈”。
realme 真我 Neo7 Turbo 手机维修备件价格公布 - 天天要闻

realme 真我 Neo7 Turbo 手机维修备件价格公布

IT之家 5 月 30 日消息,realme 昨日发布真我 Neo7 Turbo 手机,新品搭载天玑 9400e 芯片以及 7200mAh 电池,首发 1999 元起,国补价 1699.15 元起。IT之家查询发现,这款新机的维修备件价格现已在官网公布。▲ IT之家图赏:真我 Neo7 Turbo,下同屏幕 549 元电池 279 元电池盖组件(黑色)159
演艺经济“点亮”声光产业,广东制造厂商学会用设备“讲故事” - 天天要闻

演艺经济“点亮”声光产业,广东制造厂商学会用设备“讲故事”

当前,演艺经济正在成为文旅消费领域的重要增长点,也为广东乃至中国的专业音响灯光行业指明了转型升级的方向。5月27日至30日,第23届广州国际专业灯光、音响展览会在广州广交会展馆举行。作为专业声光视听领域的行业风向标,该展会不仅展现了业内顶尖的技术,更秉承科技赋能文娱的理念,将潮流文化创意植入娱乐消费场景。...