当AI写作、创作艺术品,甚至能媲美人类水平时,有人兴奋不已,也有人担忧其可能带来的影响。普通人对于生成式AI的态度各异,但推动这一技术发展的研究人员和企业都面临一个共同问题:如何解决大型模型所需的大量算力需求带来的高能耗问题?
以全球火热的OpenAI公司ChatGPT为例,其训练过程需要庞大的计算资源。微软为了满足这些需求,开发了拥有28.5万CPU核心和1万GPU核心的超级计算机。这不仅耗资巨大,而且运营成本也极高。据国盛证券报告估计,每次训练ChatGPT需要140万美元左右。
为了解决数据中心能源消耗的问题,无论是微软Azure还是阿里云,都开始采用“泡澡”方式来提升服务器散热效率,这种方法通过液冷技术来降低能源消耗。
英特尔市场营销集团副总裁庄秉翰在2023年举行的一场会议上表示:“我认为ChatGPT会加速液冷技术的发展,目前液冷已经成为一个趋势。”服务器“泡澡”是一种比喻,实际上是指使用浸没式液冷技术进行散热,而这种技术并非新出现,但由于缺乏统一标准,使得系统设计和验证成本较高,对最终用户来说价格相对较贵。
应用也是液冷技术普及的一个障碍。“许多应用并不需要如此高功率”,宁畅总裁秦晓宁说,“但随着CPU和GPU功率的不断提高,现在必须考虑到更节能、更先进的数据中心设计。”
新华三集团计算存储产品线副总裁刘宏程认为:“用户需求激增→标准建立→规模效应体现→整体成本自然下降,这将形成一个循环,从而加速产业从传统数据中心向新型节能数据中心转变。”
政府部门也出台了一系列政策指导行业发展,如《工业能效提升行动计划》,要求到2025年新建大型或超大型数据中心PUE(Power Usage Effectiveness)优于1.3。
然而,要实现这一目标,还有三个挑战需要克服:处理器层面的挑战;服务器层面的挑战,以及成本方面的问题。在处理器层面,英特尔至强可扩展处理器已经采用90%可再生电力;在服务器层面,英特尔推出了新的电源汇流排技术,可以降低部件级别的能耗。但是,由于标准化问题,加之定制化生产导致成本较高,因此推动产业化是一个复杂过程。
目前国内几个头部行业已经开始使用liquid cooling technology,并且进入到了规模化采用的状态。尽管如此,不是所有数据中心都一定要使用liquid cooling,因为理论上风冷也可以满足未来新的至强处理器可能达到的300W或350W功率水平。此外,对于存量数据中心市场也有提升能源效率的手段,比如升级绿色数据中心技术框架版本2.0,以便更加节省能源,同时保持性能稳定。