人工智能算力的激增,不只是为计算硬件带来了部署上的压力,也为数据中心的供电带来了不可小觑的挑战。依照目前的算力提升速度而言,如果不对数据中心的供电结构做出优化,尤其是在PSU电源上,那么先进封装和高带宽内存的短缺可能不是我们最先面临的难题。
据统计机构预测,2025年全球服务器电源市场规模将达到316亿元,其中来自中国市场的规模也将达到91亿元。在设计方案中,目前硅方案依然占据主导,可随着新建/改建的数据中心里,单个机架的功耗直线上升,以6U的AI服务器为例,单机架的平均功率就达到了10.5kW,年耗电量约等于百人的生活用电,改换新的服务器电源设计方案已经迫在眉睫。
服务器电源中的第三代半导体
与汽车这一本身空间存在限制的应用,采用氮化镓或碳化硅之类的第三代半导体,增加密度降低空间占用,支持到更大功率是很合理的设计选择。然而,在大多数人眼中,一排排机柜的数据中心里,服务器电源的设计灵活性应该要大很多才对。
然而,由于电源架构演进、节能减排、服务器新标准的发布,以及单个机架服务器功耗的进一步升高,单个分立电源模块已经普遍高于1kW,整个行业都在朝着更高的功率密度进发,所以才有了第三代半导体在服务器电源上的落地机会。
鉴于宽带隙的特性,氮化镓可以在高电压和高频率应用中,依然保持较低的导通电阻和开关损耗从而进一步提升能源效率,氮化镓模块的电源效率普遍高达94%。此外在不少头部氮化镓厂商的努力下,已经有一批氮化镓服务器电源可以做到80Plus钛金级。
由于具备更高的击穿电场和饱和速度,氮化镓可以支持更高的功率密度,市面上已有一部分氮化镓功率模块可以做到90W/in3以上的功率密度,氮化镓服务器电源更是在支持到3kW的功率的同时,降低了分立电源模块的物理尺寸。
从目前市面已有的氮化镓服务器电源来看,主要面向最高3kW左右的数据中心供电,以华为的3000W功率氮化镓服务器电源为例,就是基于英飞凌的氮化镓开关管设计。这是因为随着OCP 3.0、ORV等公开标准的发布,对高功率密度、有效低成本的热管理等机架设计提出了要求。
事实上,随着AI服务器对于供电的要求进一步提高,3kW的系统功率也很快会成为过去式。以英伟达最新发布的B200 AI GPU为例,其满载功耗就达到了1200W,DGX B200这种8 GPU硬件平台,功耗更是高达14.3kW。
碳化硅由于成本还未降低至与氮化镓或硅器件同一水平,目前在服务器电源上的应用主要还是在中大功率的模块化UPS上,这与材料本身的特性不无关系。在带隙宽度上,氮化镓和碳化硅的差距并不大,但在击穿电压上,碳化硅的1700V击穿电压远大于氮化镓的650V。
英飞凌更是在最近推出了击穿电压高达2000V的碳化硅分立器件,为UPS提供了更高的过压裕量,所以使得碳化硅UPS模块拥有更高的耐压等级。加之更高的开关速度,对于UPS这类产品而言,可以有效提高电源效率和系统成本。
3kW已经不再是上限
面对GPU集群这样的电力猛兽,即便是现有的氮化镓电源方案也已经有些吃力了,更何况数据中心PUE的指标没有改变,所以欲基于最先进的加速器硬件打造AI智算中心,势必要寻找新的解决方案,追求更高的功率密度。
纳微半导体就在去年推出了一款基于OCP CRPS规格的CPRS185 3200W功率,其功率密度可以做到100W/In3,与等效的硅方案相比,更是将体积缩小了40%。更重要的是,CPRS185在20%到60%的负载区间内,效率超过了96%,甚至超越了80PLUS的钛金标准。
可即便是3200W的功率,也很难满足未来AI服务器的供电要求。根据预测,随着B200、B100、MI 300X等加速器的出货,未来一年时间内,人工智能数据中心的电源功率需求可能会有最高3倍的指数级增长。针对指数级上涨的服务器电源供电功率要求,纳微半导体于今年发布了最新的产品路线图,也为碳化硅在服务器电源找到了新的市场机遇。
在2到4kW的范围内,基于无桥PFC的设计,氮化镓和碳化硅都可以满足服务器电源的需求,且氮化镓还占据成本优势。然而在超过4kW以上的功耗时,氮化镓的高传导损耗就已经对其散热设计提出挑战了。在这个功率范围的电源效率上,两者在半载时的效率相近,但在满载时的效率碳化硅可以做得更高。
正因如此,纳微半导体计划于今年发布一款全新的4.5kW电源平台,同时利用了氮化镓和碳化硅技术,把功率密度推至135W/in3以上,并维持97%以上的电源效率。从拓扑结构上看,该方案抛弃了标准的四二极管桥式电路设计,改用了一个碳化硅半桥+氮化镓半桥的方案。
不仅如此,纳微半导体还宣布在今年底推出一款支持8-10kW的服务器电源平台,用于应对明年的AI系统功率要求。纳微半导体表示,该平台将利用更新的氮化镓和碳化硅技术,并在架构上进一步延伸。可以看出,基于新一代AI硬件打造的服务器,已经在推动第三代半导体厂商加快产品迭代速度,为的就是抢占市场先机。
至于集成碳化硅器件带来的成本问题,在AI服务器的高造价面前可能并不算什么。以英伟达的GB200为例,据分析,基于GB200打造的AI服务器系统单个造价在2到3百万美元之间。
写在最后
随着各种基于云端的人工智能应用飞速落地,数据中心已经面临着巨大的电力挑战,基于第三代半导体方案的服务器电源不仅解决了高功率供电的问题,也进一步节省了系统成本和电费成本。尽管目前Si方案依然占据主流,相信随着全球第三代半导体厂商进一步扩产降低设计成本的情况下,服务器厂商会加快第三代半导体服务器电源的迭代速度。