[slide:title]

服务器冷却于数据中心行业的关键意义何在

发布时间:2024-08-14 文章来源:本站

为什么服务器冷却在数据中心行业如此重要?

   数据中心运营商不断探寻全新的冷却解决途径,以保障服务器能够切实且高效地运转。


   高性能计算(HPC)或者人工智能(AI)工作任务或许需要耗费数天的高利用率运行时长才能完成一组复杂的模拟运算。运行这些工作负载的硬件若缺乏充足的冷却措施,将会导致不可靠、出现故障并且降低服务器系统的整体性能,进而延长工作负载的运行时间。这意味着运行该工作负载的总成本或者服务器在其使用周期内运行的总成本将会攀升。


   另一个需要非传统冷却的情形是在超频阶段。通过对处理器进行超频,能够提升时钟速度,促使 CPU 在每秒内执行更多的指令。这通常应用于游戏系统,而当下在诸如电子交易等需要快速且低延迟计算的领域也广泛运用。


   超频能够增强计算机组件的性能,但代价是功率增加,进而产生额外的废热。倘若没有恰当的冷却,组件根本无法应对额外的热量而发生故障,可能致使提升的性能毫无价值。


   为应对这些挑战,液体冷却常常是理想的解决方案。


   数据中心液体冷却存在哪些不同类别呢?


   最为常见的三种液体冷却类型分别是浸入式冷却、机架级液体冷却以及独立式液体冷却。


   浸入式冷却是将所有计算机组件放置于专门的非导电液体之中,通常具有油性特质。浸入式冷却包含两种类型:单相和双相。


   单相的运作原理是主动将液体泵送到热源处,吸收热量后,再将液体循环至热交换器进行再次冷却。
   双相的运作原理是使液体保持在低沸点状态。随后,来自组件的热量在接触时使液体沸腾,这种相变将热量从冷却的组件上转移出去。气泡上升至罐顶,然后凝结回液体形态。冷凝过程会带走冷却剂中的热量。
   浸入式冷却需要定制硬件、非典型的机架空间以及对数据中心进行定制。它还需要定义一个完整的架构体系,并且维护期望较低,因为在系统部署后添加卡或磁盘驱动器需要进行大量工作。与其他方式相比,浸入式冷却的部署成本通常较高。


   然而,与传统的基于风扇的系统相较,浸入式冷却的优势在于其提供了更高的散热效率。液体冷却剂的导热性能比空气好得多,并且循环所需的能量输入更少。


  机架级液体冷却是将整个数据中心机架转变为广泛的液体冷却回路的过程。机架的很大一部分将专门用于泵送和冷却液体冷却剂。机架的其余部分将安置服务器系统,这些服务器系统的主要发热组件(CPU、RAM)装配有水块或冷板,冷却剂从其上方流过。然后,这些系统将管道引导至机箱后部,在那里它们设有快速断开阀。


   这允许服务器的内部冷却回路与主机架级冷却回路进行连接和断开。机架级液体冷却能够提供非常高密度的计算,因为可以将大量硬件堆叠在一起,原因在于冷却基础设施在一定程度上被抽象化了。不过,这需要一整套机架级解决方案,并且根据部署的复杂程度,可能会比典型的服务器部署成本大幅增加。


  最后,独立式液体冷却指的是将所有必要的液体冷却硬件完全整合到单个服务器机箱内。这意味着将液体冷却剂泵送到特定的计算机组件(例如处理器)上,通过水块或冷板传递热量。这种冷却剂通过管道输送到关键组件或热源处,然后像传统服务器配置一样返回到由内部风扇冷却的散热器。


   独立式液体冷却意味着数据中心无需额外的硬件或基础设施。可以使用传统机架,服务器基本上如同典型的风冷服务器一样即插即用,这意味着服务器具有与标准服务器类似的维护能力。与浸没式冷却系统相比,独立式液体冷却的部署成本往往更接近典型服务器的成本。


   液体冷却不单是提升服务器的效率


   数据中心所有者意识到,他们能够通过捕获和回收现有基础设施中的废能来提高效能。一项新的 ISO 能源再利用因子(ERF)标准正在实施,以助力数据中心衡量其在能源再利用方面的表现并提升可持续性。


   微软和谷歌都已在芬兰开启热能再利用项目,前者与 Fortum 合作,宣称“数据中心产生的废热将转化为区域供热,为芬兰第二大城市埃斯波、邻近的考尼艾宁和基尔科努米市提供服务,这将是迄今为止世界上最大的数据中心废热回收项目。”


   与此同时,谷歌正与 Haminan Energia 合作,重新利用现有数据中心的热量,这将“占当地区域供热网络年热量需求的 80%”。


   英国也在试验类似的计划,能源供应商 Octopus 最近向 Deep Green 投资 2 亿英镑,利用废弃的直流电为附近的游泳池供热。


   数据中心的主要制约因素


   特别是在金融等行业,人们逐渐从云端回归,这通常是基于成本的举措,转而回到更靠近交易所或者由交易所托管的共置数据中心——这是从性能和控制的角度所推动的。与任何技术一样,关键在于“合适的工具用于合适的工作”。云和远程数据中心对于某些行业和项目而言效果良好,但始终需要在物理上靠近特定位置的高性能硬件。


   人工智能、监管压力和工作负载将如何影响液冷采用的速度


   人工智能和其他 HPC 行业正在持续提升机架式服务器系统的功率密度。计算机数量的增加意味着功耗增加,从而导致发热量上升。从服务器系统中移除这些热量反过来需要为高 CFM(立方英尺/分钟)风扇提供更多功率。


   液冷技术(包括机架级冷却和浸入式冷却)能够提高服务器系统的散热效率,从而减少风扇功率。反过来,这能够降低服务器机架的总体功率预算。


   当将此推算到数据中心占地面积的大部分时,节省的资金能够大幅增加。当考虑到一些最新的 Nvidia 机架产品需要 40KW 或者更高功率时,就可以开始看到功率需求是如何走向极端的。作为参考,许多电子交易共置仅提供 6 - 12KW 机架的情况并不罕见,这些机架有时半空运行,因为服务器所需的功率超过机架能够提供的功率。


   这些趋势将迫使数据中心采用任何能够减轻其自身基础设施以及为其供电的本地基础设施电力负担的技术。


   此外,任何提升效率的方法,无论是通过降低总体负荷还是重复利用废热,对于保持运营效率,同时扩展以满足不断增长的计算需求都至关重要。许多人可能会开始考虑构建全新的定制 HPC 或者以 AI 为重点的数据中心,从一开始就关注这些新要求。


   位置也将继续在新数据中心建设中发挥重要作用,因为获取绿色能源和良好的气候将成为需要考虑的新关键要素。



   声明:本站所使用的图片文字等素材均来源于互联网共享平台,并不代表本站观点及立场,如有侵权或异议请及时联系我们删除。


添加微信,联系我们