(本文编译自electronicdesign)
由于人工智能(ai)和高性能计算(hpc)的兴起,数据中心的工作负载持续激增,传统的空气冷却方法已逐渐接近实际应用的极限。随着热负载的增加和密度要求的提升,数据中心运营商迫切需要寻找新的散热管理方案。浸没式液冷已成为一条充满前景的发展路径。
然而,这一转变暴露出行业在定义和测试组件可靠性方面存在的显著漏洞。为空气冷却环境制定的标准,从未考虑过组件完全浸没在介电流体中时的材料性能表现。鉴于架构设计和性能方面的新需求,老化模型、故障模式甚至组件耐用性的基本假设等关键因素都需要重新考量。
这一变革正在重塑数据中心运营商评估组件可靠性的方式。支持空气冷却系统的现有标准曾发挥过重要作用,但如今必须升级以应对浸没式液冷环境带来的新挑战。
尽管空气冷却标准长期为系统规划提供指导,但浸没式液冷引入了一套不同的老化机制和材料挑战。为了跟上发展步伐,工程师和开放计算项目(ocp)等行业组织正携手合作,基于真实的浸没式液冷条件构建测试框架。这一转变凸显了空气冷却系统与浸没式液冷系统在设计和可靠性方面的显著差异(见图1)。

浸没式液冷技术如何重构系统设计挑战?
浸没式液冷消除了气流限制,但要求从根本上重新思考基础设施、材料选择和系统设计等方面。传统的空气冷却系统依赖风扇和散热器,如今在管理组件热设计功率(tdp)方面面临越来越大的挑战——目前的组件tdp通常超过300瓦,许多下一代gpu和ai加速器甚至突破了400瓦的临界阈值。一旦超过这一阈值,气流往往不足以维持安全工作温度。
为了弥补这一差距,许多数据中心运营商最初转向冷板冷却技术,该技术通过将液体直接循环至最热的组件来改善热传递。然而,尽管这种方法比空气冷却更能应对更高的芯片密度,冷板解决方案却带来了大量的管道布置、复杂的机架级热交换器集成,以及额外的机械故障点,包括管道和连接处泄漏的风险。
随着计算负载持续攀升,无论是单相还是双相的全浸没式冷却,正成为克服空气冷却和冷板系统结构与散热限制的下一个选择。通过将服务器完全浸没在介电流体中,浸没式液冷从根本上避开了气流限制。
与传统空气冷却相比,浸没式液冷潜在的节能效果(通常称可达30%)取决于多个因素,包括使用的特定浸没式技术、基准空气冷却系统的电源使用效率(pue)、气候条件以及it负载的特性。在最佳条件下,这可能显著提升能源效率。然而,实现这些收益需要的不仅仅是对现有硬件的改造。
浸没式液冷改造面临的挑战
改造现有数据中心往往面临严峻挑战。许多传统数据中心使用高架地板,但这些地板并非为支撑浸没式液冷水箱的重量和密度而设计。升级此类站点通常需要花费高昂的成本进行结构加固,同时还需添加浸没式液冷所需的系统,如热交换器、流体管道和维护通道。
鉴于这些结构和基础设施方面的挑战,大多数新的浸没式液冷部署正转向专门建造的“ai工厂”环境——这类环境的地板支撑、冷却基础设施和空间布局均针对浸没式架构进行了专门设计。
在新建数据中心中,浸没式液冷可实现更高的机架密度和更优的散热控制,但这一优势仅在基础设施为浸没式系统专门设计时才能实现。
基于空气冷却标准的局限性
浸没式液冷虽具备显著的散热优势,但也暴露出传统可靠性框架的不足。现存的大多数标准旨在模拟材料在空气中的老化过程——在这种环境下,氧化(而非化学相互作用)是导致故障的主要因素。而在介电流体内部,氧化过程会显著减缓。
取而代之的是热化学降解风险,包括潜在的水解反应、材料膨胀,以及添加剂逐渐渗入流体等现象,这些已成为主要风险。随着时间推移,此类化学变化会削弱材料的机械性能,进而影响它们的长期可靠性。诸如混合气流老化测试等传统方法,其初衷是通过让材料暴露于二氧化硫、二氧化氮等反应性气体中来模拟空气中的腐蚀情况,但这类方法已无法匹配流体环境中的实际失效机制。
除了上述在可靠性标准方面遇到的挑战,浸没式液冷在热设计和机械设计方面也面临着一些问题。
当涉及数据中心的液冷技术时,即使是关于热行为的基本假设也需要转变。组件温升限制(通常相对于环境空气定义,例如温升30°c)无法直接套用,因为核心因素始终是组件的结温(tj)。
流体能更高效地从表面带走热量,允许整体流体温度有一定的潜在升高(无论是40°c、50°c或更高)。然而,目前行业尚未就标准化的安全工作流体温度阈值达成共识,这些阈值需确保不同硬件的结温(tj)均处于可接受范围。
机械应力的表现也有所不同。在流体中,振动和冲击会被抑制,这虽然掩盖了传统的疲劳模式,但引入了新的机械考量,例如组件受到的浮力效应或流体动力学产生的应力,这些均未被基于空气冷却的模型纳入考量。
长期以来,尽管加速老化表都为空气环境中的可靠性预测提供指导,但浸没式液冷领域尚未有与之匹配的表格。缺乏这些数据,制造商不得不从不完整或不匹配的数据中推断组件耐用性。随着浸没式液冷从试点项目转向大规模生产部署,这是一个充满风险的命题。
基于空气冷却的标准已不再适用于沉浸式环境中占主导地位的化学和机械失效模式(如图2所示)。对流体特定可靠性模型的需求已不再停留在理论层面,而是一个日益扩大的缺口,必须加以填补以支持下一代高性能数据中心的发展。

早期浸没式液冷部署观察
尽管业界对浸没式液冷的兴趣与日俱增,但当前大多数部署仍依赖对空气冷却硬件的改造,而非专门为浸没式环境设计的架构。许多早期部署只是简单地将风冷服务器浸没在介电流体中,可用“一浸了之,听天由命”来形容。这种方法会立即暴露出兼容性问题,且几乎无法为长期标准制定提供可用的可靠性数据。
如果没有专门为浸没式液冷设计的硬件,就很难从现场经验中分离出真正的失效机制或构建可靠的老化模型。许多基于空气冷却假设设计的早期系统,在流体环境中因设计过度而掩盖了潜在的可靠性风险,同时也未能充分发挥效率提升的潜力。
浸没式液冷中的电气与互连挑战

电气方面的挑战也逐渐显现。由于介电流体的介电常数(dk)和介电损耗(df)高于空气,高速连接器会出现更显著的信号衰减和阻抗偏移,尤其是在高频场景下。如果不加以解决,这些影响将降低系统带宽和吞吐量,因此专用互连技术成为下一代设计的核心需求。
浸没式液冷技术专用硬件创新机遇
与此同时,浸没式液冷环境也带来了大量新机遇。近期的测试表明,最初为空气冷却设计的电源连接器在完全浸没时可承载超过其额定电流150%的负载。未来针对浸没式液冷优化的设计可能将铜材用量减少多达一半,同时仍满足严苛的热管理和电气要求,支持更紧凑、高效的配置。
借助真正针对浸没式液冷优化的框架,行业可以重新思考系统设计的基础层面,包括机架密度、基于流体的热管理以及长期机械耐久性。专用系统将实现更小巧的外形尺寸和更高的散热裕量,同时增强对流体环境中新型化学和机械应力的抵御能力。
调整加速寿命测试并引入新策略
随着浸没式液冷技术被更广泛的应用,可靠性测试方法也必须随之演进,以反映基于流体环境的实际情况。
加速寿命测试(alt)仍是核心方法,但其在浸没式液冷中的应用需要调整。由于传统老化模型不再适用,行业开始应用失效物理(pof)原理,识别材料、结构和电气路径在真实浸没式条件下的退化方式,从而从头开始定义可靠性。
传统的加速模型,如用于热老化的阿伦尼乌斯模型,可能需要修订,以纳入化学反应动力学和流体-材料相互作用,这可能会改变标准加速因子。浸没式环境还需要补充策略:失效测试(ttf)技术在识别材料膨胀、密封件化学软化以及电气性能逐渐变化等风险方面变得愈发重要。
整合复合应力因素以实现真实场景测试
如今,有效的可靠性测试需要整合多个并发应力因素。必须综合评估热循环、机械负载、化学降解和电信号偏移,以全面表征系统随时间的行为变化。基于氧化老化和热应力松弛的框架(曾足以满足空气冷却需求)已不再适用。
新模型(很可能基于失效物理(pof)方法)必须考虑热化学降解动力学、流体-材料兼容性,以及浸没式液冷引入的独特机械负载,如浮力和流体动力。
探索高加速寿命测试(halt)在浸没式环境中的作用
halt虽尚未广泛应用于浸没式液冷领域,但在揭示浸没式系统特有的设计漏洞方面具有潜力。将halt适配于浸没式环境也带来了新挑战,尤其是在流体介质中直接施加极端复合应力(热应力、振动应力和化学应力)方面。传统的干空气halt方法可能使硬件通过测试,但这些硬件在接触流体后却可能失效,这凸显了基于浸没式环境的应力测试的必要性。
构建完整的浸没式可靠性测试周期
仅持续数天的短期浸没式评估,可能会忽略那些只有在长期接触流体后才会显现的关键失效机制。有效的加速测试方案必须复现长期浸没过程中累积的化学、热和机械影响,而不仅仅是进行短期测试。
针对浸没式环境的结构化测试方法需重点关注以下方面:测试矩阵应涵盖三个关键阶段:空气中的干燥基准测试、完全浸没运行测试,以及浸没后的(湿态空气中的)性能测试。捕捉这一完整周期至关重要,因为组件在浸没过程中可能吸收流体,即使干燥后也会改变其机械强度和电气性能。
在某些情况下,“湿态空气中”的条件风险最高,因为滞留的流体残留物(尤其是在多孔材料中)可能在组件重新暴露于空气时削弱介电强度或加速局部腐蚀。
重新定义浸没式可靠性的行业标准
浸没式液冷技术的当前首要解决的任务包括,解决材料在流体环境下的化学降解问题,以及信号完整性偏移问题。与此同时,开放计算项目(ocp)的参与者正在重新评估传统加速老化模型,并认识到基于空气冷却的假设已无法可靠预测浸没式系统中的退化模式。
也可以从其他行业获得借鉴。例如,在汽车可靠性测试中,通常会故意引入污染物以模拟长期的实际退化。类似的方法也可用于强化浸没式验证:通过故意引入已知的化学降解催化剂,加速通常在多年运行周期中才会出现的失效机制。
如果没有围绕流体特定可靠性框架达成共识,浸没式测试可能因专有方法的碎片化而面临风险,导致互操作性挑战并延迟技术普及。通过尽早投入共享方法的研发,企业正助力构建可预测的可靠性路径和可扩展的浸没式液冷系统。行业协作只会进一步推动这些工作的统一(如图4所示)。

加速实现浸没式液冷的可靠性
未来两到三年内,浸没式液冷技术的发展轨迹将取决于行业能否正式制定流体特定的可靠性标准、扩展实验室基础设施,并从早期部署中收集真实场景的性能数据。
当前的当务之急是将基于失效物理(pof)原理的标准化可靠性框架形成规范,以解决材料、机械结构和电气系统在流体环境中的行为问题。
同样关键的是,从早期浸没式液冷部署中收集真实失效数据,这对验证实验室加速模型和完善长期可靠性预测至关重要。为加速寿命分析、流体-材料兼容性验证和浸没后失效评估制定明确的测试协议,是在供应商之间生成一致且可对比数据的关键。
扩展对浸没式兼容测试环境的访问(如流体老化试验台、多应力测试平台、环境试验箱和先进材料表征系统)对于填补现有数据空白同样至关重要。如果无法在真实条件下施加化学、热、机械和电气复合应力,耐用性预测将始终存在不确定性,从而阻碍大规模部署。
浸没式液冷的潜在优势是巨大的:更高的机架密度和更优的散热裕量均契合人工智能驱动的高性能计算架构的演进需求。
因此,正式制定标准并扩展浸没式专用测试能力,对于统一可靠性实践、简化组件验证并支持大规模普及至关重要。
需要认识到的是,我们必须在浸没式生态系统仍在成型之际填补这些技术空白,因为这将决定高性能计算的未来。通过建立清晰的标准并构建严谨的流体特定测试框架,行业能够释放浸没式液冷技术的全部潜力,并在未来数十年重塑数据中心的格局。