当AI写作、创作音乐,甚至绘画,都能媲美甚至超越人类水平时,有人激动不已,也有人忧虑。
普通人对生成式AI带来的变化持有不同态度,但推动这一技术的研究人员和企业都共担一个问题:大型模型所需的大规模算力需求如何解决其高昂的能耗问题?
以ChatGPT为例,微软为了满足OpenAI的GPT-3训练需求,推出了一台拥有28.5万个CPU核心、1万个GPU的超级计算机。巨大的CPU和GPU带来了高昂的芯片采购和运营成本。
数据中心能源效率问题成为了云计算服务商面临的一个挑战。为了解决这一问题,无论是微软Azure还是阿里云,都让数据中心服务器采用“泡澡”方式进行散热,以提升IDC能源效率。
“我认为ChatGPT将加速液冷技术发展,现在液冷几乎已经成为一个趋势。”英特尔市场营销集团副总裁兼中国区数据中心销售总经理庄秉翰在2023年英特尔可持续发展峰会上表示。
服务器“泡澡”是一种比喻,实际上代表的是服务器利用液冷技术中的浸没方式进行散热,这一技术包括了冷板、喷淋、浸没式,并非新出现但业界应用并不广泛。
“主要原因是国内许多冷板液冷设计缺乏统一规范,使得每家厂家的设计都有差异,这增加了系统设计成本与验证成本,因此对于最终用户而言这个方案就比较贵。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立认为。
除了技术与标准之外,应用也是限制液冷普及的一个因素。“高性能应用环节可能才需要液冷,但是大量应用并不是那么高功耗的应用,而且在国家也提出了‘双碳’战略之前,没有紧迫性或必要性这么强。”宁畅总裁秦晓宁说,“现在的情况不一样,CPU功耗可能达到270W~300W,将来可能350W;GPU现在都400W~500W了,所以必须要使用液冷技术。”
更进一步来说,大量算力的快速发展促使客户从风冷转向更节能的液冷。这不仅仅是关于节能的问题,还有空间浪费的问题。存量数据中心中无法容纳新的、高能耗设备,如GPU服务器导致空间占用增加,以及提高管理和运营费用。这促使更多中国客户在考虑更新整体设计时转向更节能先进的全屋水循环(liquid cooling)解决方案。
当用户需求激增→标准建立→规模效应体现→整体成本自然下降形成循环之后,可以加速推动产业从传统数据中心向新型节能型数据中心过渡。目前全国已有近520万个基架进入部署,而过去五年的年均复合增长率达到30%,全国用电量达到了全国用电2.6%,预计还会继续增长。
政府指导单位也发布了一系列宏观政策指导行业发展,其中包括规划、能源效率以及利用率。在《工业能效提升行动计划》中明确规定到2025年新建大型超大型数据center PUE优于1.3。
PUE(Power Usage Effectiveness)用于衡量IDC能源效率,是通过IDC总能耗除以IT设备能耗得出的指标。如果使用风涡轮涡流散热PUE可以做到1.4-1.5,如果使用浸没式或其他形式的人工智能网络处理器散热PUE可以做到接近1.1。
破解大规模实施面临着多方面挑战,不同于处理器层面的创新挑战,对于强调创新的英特尔难度可控今年发布至强可扩展处理器,在深层环节已经实现90%可再生电力。而对于服务器层面的挑战则存在着既要保证安全性又要降低成本的问题。
相比之下,加快产业化是一个关键步骤,因为没有统一规范,对于客户来说是一件困扰的事情。而且即便是同样的产品也不一定适用于所有机房环境。此外,由于生产具有规模经济效果,一旦形成标准化生产能够显著降低成本,从而推动这项最新技术更加普及化,让所有用户能够享受到这些最新改进后的产品。
雷峰网了解到当前油管制品逐渐减少,因为很多费用与产量相关。一旦油管制品价格下跌,那么整个产业链都会受益,即便是在未来短期内仍然保持较高价格的情况下,最终消费者依然能够获得利益。不过,由此产生的一些长期影响仍待观察。