优化数据中心——实现人工智能时代的绿色可持续发展

2023-11-28

在过去的几年中,人工智能(AI)的需求达到了前所未有的高峰,推动了支持其的数据中心基础设施的扩张。据估计,人工智能的采用将占据数据中心基础设施总量的10-15%,因此企业有必要在优化数据中心设备性能的同时,尽量减少职能运营成本的增加,以及对环境的进一步影响。

人工智能和机器学习( ML)应用需要高性能的设备和设置,而这些设备和设置除了需要更高的功耗外,还对冷却提出了严苛的要求。仅人工智能系统产生的多余热量就很难通过传统的空气冷却技术来降低。尽管液体冷却已成为一种解决方案,据报道每年可降低数据能源成本 10%,但能源使用的增加及其对环境的影响依然存在,这意味着还有更多的提升空间。
 
为人工智能量身定制数据中心工作负载

数据中心在处理人工智能和高级分析等处理密集型应用时,充分理解特定的工作负载要求至关重要。每种工作负载可能需要不同的计算能力,从而导致产生不同程度的能耗和热量。

通过深入了解其工作负载,企业可以利用一系列技术和解决方案来减轻数据中心对环境的负面影响,同时优化性能。在设置服务器时,有许多组件和配置可供选择,每个应用都需要一个最能支持其工作负载的系统。例如,处理人工智能与处理 5G 时需要不同的服务器。
传统的通用服务器设计之初的目标就是处理多方位的各种常见需求,而这时常会使其显得过于繁杂。相反,专为特定工作负载量身定制的优化系统提供了更多的选择,以满足目标工作负载的性能需求。这些改进通过去除非必要的功能,实现了节约成本、降低功耗,并大限度地减少热量产生的目标。

在人工智能领域,可以利用具备特定硬件选择的平台来提升性能,从而改善机器学习工作负载。例如,某些 CPU 提供了专门的人工智能加速器功能和硬件,以优化人工智能工作负载,或者包含具备高带宽内存(HBM)的硬件,可比其他内存更快速地传输数据到 CPU。尽管考虑硬件选项对于提升目标应用速度至关重要,但这些选项也会带来一些妥协。其中一些选项,包括 HBM 在内,可能引入新的热量限制,需要通过额外的冷却手段来解决。
 
大限度提高数据中心效率

考虑到系统将扩展到数百、数千甚至数万台设备,在整个部署过程中,即使是组件选择带来的微小效率也会在整个规模中显著体现。同样,服务器的电源效率也会随着时间的推移带来巨大的成本节约。然而,即使在为目标工作负载定制了最佳性能和效率的设备之后,仍然可以通过采用更进一步的步骤和技术来进一步优化性能和能耗。

为了追求更高的效率和可持续性,并满足日益增长的人工智能需求,IT 行业在新技术方面取得了长足的进步,这些新技术有助于减少对环境的影响,同时优化资源利用率。从更密集、更高效的机架规模部署方法,到数据中心的新型冷却设计,甚至是分解硬件资源以提高灵活性和利用率。如今,业界有多种可选方案,可帮助大小企业取得更高性能、降低成本和改善环境之间的平衡。
 
采用合适的液体冷却方法

现在,企业可以通过一些基本方式来实现这些目标,即在提高性能的同时减少开销和对环境的影响。对于希望实现这些平衡目标的企业来说,提高机架密度是最有效的投资之一,因为这样可以更有效地利用已部署的冷却基础设施。同样,通过将冷却排气装置合并到一个较小的区域来操作冷热通道,使其更易于管理,并能更快地通风和冷却,将能够提高暖通空调系统的效率和效益。

然而,要实现更高性能和更环保的数据中心,最常见和有效的解决方案就是采用液体冷却技术。特别是随着人工智能时代对性能需求的大幅提升,液冷技术的采用已成为数据中心发挥其优势的关键一步。

其中的重点因素在于选择最适合特定数据中心的液体冷却方法。实施液体冷却技术有多种方法,其中有两种颇为流行:直接冷却芯片(D2C)和浸没式冷却。

D2C 冷却是相当常见的选择,因为它与数据中心已有的传统风冷解决方案和基础设施的集成更为简单。D2C 是指冷却液流经发热的电子设备,使液体吸收芯片的热量。然后,液体被循环到另一个区域,在那里用风扇冷却,将热量排出系统。

另一种,将服务器完全浸没在充满非导电液体的水箱中的方式则被称为浸没式冷却。在这种部署方式中,系统实际上是浸没在液体冷却剂(通常是某种矿物油、合成油或生物油)中。这种液体可以循环使用,排出热量(类似于 D2C 冷却),或者利用在一个闭环系统中的冷却槽,液体通过蒸发散热成气体,气体通过热交换器回收和冷凝(冷却)后返回冷却槽。

除了具有成本效益和减少电力产生的温室气体特点以外,液体冷却还能提高性能。冷却效果改善后,电子元件不太可能达到热极限,这意味着它们能够更长时间地高性能运行,而不会出现节流现象。这对于需要更高性能水平的尖端人工智能应用的企业来说尤为重要。
但是,对于那些希望通过大刀阔斧的改变来实现更好、更环保的数据中心的企业来说,就需要探索新的方法和技术,比如Compute Express Link™ (CXL™)  。

 
利用 CXL 实现可持续性和成本效益

CXL将彻底改变数据中心的设计,因为它可以实现更好的资源分配,并且不再依赖于每台服务器上的本地计算资源。一直以来,对于追求高端人工智能和机器学习应用的云客户来说,内存是一笔不小的开支,但内存并不总是被完全需要或一直被使用。CXL 技术为数据中心的内存资源提供了大幅改进、灵活性和效率。这包括让各个系统在任何时候都能准确地利用所需的内存,无论比系统独立拥有的内存多或少。

CXL 的许多功能有望为数据中心和服务器带来显著的变革。例如,它将实现 CPU 与加速器、图形处理器和内存设备等附属设备之间的无缝内存集成。这样,CPU 和设备都可以直接访问内存,无需软件干预或同步。此外,CXL 还扩展了内存功能,使 CPU 能够利用附加设备上的更大内存池,提供卓越的速度和带宽。这一进步提高了内存容量,增强了性能,尤其适用于人工智能/机器学习应用。

这些都意味着数据中心作为一个整体可以采用更加分散的架构,减少对每台服务器都必须拥有最佳内存和计算资源的依赖。这也为采用不同组件的专用服务器设计提供了可能,改变了服务器的制造和销售方式,因为将计算、内存、存储、网络等全部打包在一个单元中的传统服务器构建方式可能不再是优选或必要的。
 
数据中心的未来将是一片绿色

人工智能是未来不可或缺的一部分,因此必须采用可持续的方法来实现数据中心的运营。通过考虑长期因素和更换重要组件,数据中心运营商可以提高性能、降低成本并减少对环境的影响。

为了使数据中心更环保,需要优化系统架构、采用创新的液体冷却解决方案、以及引入如CXL的新兴技术。通过使用传感器和机器学习进行实时控制,减少冷却能耗,企业终将能够达成降低能源成本,减少碳足迹的绿色目标。

有了这些措施,数据中心就能在人工智能驱动的世界中与其相辅相成,蓬勃发展,同时实现可持续发展目标,共赴绿色未来。
 

文章推荐

相关推荐