当AI写作、创作音乐,甚至绘画能够媲美甚至超越人类水平时,有人对此感到激动不已,也有人担忧其潜在的影响。普通人对于生成式AI可能带来的变化持有各种态度,但推动这一技术发展的研究人员和企业共同关注的是:大型模型所需的大量算力需求如何解决能耗问题?
以全球热门的OpenAI公司ChatGPT为例,为了满足GPT-3模型训练的巨大算力需求,微软专门开发了拥有28.5万CPU核心和1万GPU核心的超级计算机。这种庞大的硬件配置带来了高昂的芯片采购成本以及运营费用。
据国盛证券报告估计,每次训练ChatGPT需要140万美元左右。此外,每日运行电费预计达5万美元以上。数据中心能源消耗的问题已经成为云服务提供商面临的一个挑战。
为了应对这一挑战,无论是微软Azure还是阿里云,都采取了将服务器置于“泡澡”状态以提高散热效率并提升IDC能源效率。
“我认为ChatGPT会加速液冷技术普及。”英特尔市场营销集团副总裁兼中国区数据中心销售总经理庄秉翰在2023年英特尔可持续发展高峰论坛上表示,“目前液冷几乎已经成了一种潮流。”
服务器「泡澡」要成主流
服务器「泡澡」是一种比喻,实际上代表的是浸没式液冷技术中的一种方式,这一技术包括冷板、喷淋和浸没式设计,并非新兴技术,但业界使用率并不高。
主要原因是国内许多冷板液冷设计缺乏统一验证标准,使得每个厂家都有差异,加剧了系统设计与验证成本,从而使得这项方案对于最终用户来说显得昂贵。英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立指出:“除了标准之外,应用也是促进该技术普及的一大障碍。”
随着CPU功耗不断增加到270W、300W乃至未来可能达到350W,而GPU功耗则达到400W、500W以上,大多数客户正在从传统风冷转向更节能且先进的液冷技术。这不仅仅是一个能效问题,更是一个空间浪费的问题。在存量数据中心中无法容纳新的、高能耗设备,如GPU服务器导致空间占用增加,以及管理运营成本上升。这迫使更多中国客户在考虑更新整体数据中心设计时,将目光转向更节能且先进的液冷数据中心,以解决这些问题。
政府也通过宏观政策指导行业发展,如《工业能效提升行动计划》,明确要求新建大型或超大型数据中心PUE(Power Usage Effectiveness)优于1.3。PUE是衡量IDC能源效率的一个重要指标,是通过除IT设备能耗除以整个IDC所有能力来计算得到。如果采用风冷散热,则PUE可能达到1.4-1.5,而如果采用液冷,则可以降低至近1.1。
虽然存在成本和标准化挑战,但英特尔正致力于从三个方面探索绿色低碳:处理器产品、服务器整体设计以及软件工具。一旦处理器层面实现创新,一切就变得相对容易。而在服务器层面,即便存在一些难题,也有方法可以克服,比如最新研发中的英特尔电源汇流排技术,可以降低部件级别的能耗。
然而,对于现有的大量投资较小规模但具有关键性应用场景的地方性项目来说,不同类型机房对于不同温度环境下的适应性是不一样,因此是否采用liquid cooling仍然是一个决策过程中需要考虑到的因素之一。
随着时间推移,当用户需求激增→标准建立→规模经济体现→整体成本自然下降形成循环后,可以加速产业从传统到新型节能模式转变。此外,由于全国已有近520万个基架进入部署,并且过去五年的年均复合增长率达到了30%,全国用电量占比逐渐增加,为推动产业升级提供了压力。
目前国内几个头部行业,如互联网、大型运营商等,对liquid cooling都已经迈入了试点阶段,并开始逐步扩展到其他领域。但即便如此,不同大小企业以及不同业务场景对于liquid cooling采用的决策依旧各异,其是否适用于某些存量或未来的建设项目还需根据具体情况进行评估。