GPU的算力与功耗成正相关,高性能英伟达显卡与国产GPU的单卡功耗都在300W以上。为确保大模型训练的效率和成本最优,训练业务需建立高度集中化的GPU集群。基于GPU的分布式工作原理,如果需要在减少训练时间的同时降低训练的成本,必须在更小的物理空间内部署更多的GPU服务器,提高集群算效。因此,智算中心机柜面临功耗高密度化挑战,单机柜功耗从传统数据中心的4-6kW增 表:NVIDIA超算平台整体功耗随算力提升而增加加至20-40kW。AI超算平台需要建立高度集中化的GPU集群,通常 由8卡GPU或NPU模组构成。基于芯片功耗数值可推算每台AI服务器 的功耗在5-10kW,例如NVIDIA的8卡HGX A100超算平台总功耗达 6.5kW,其中GPU功耗占3.2kW。AI服务器组成整体机柜后功率密度将达40kW以上。