当AI写作、创作音乐,甚至绘画能够媲美甚至超越人类水平时,有人对此感到激动不已,也有人担忧其潜在的影响。对于生成式AI带来的变化态度各有不同,但推动这一技术发展的研究人员和企业都面临着一个共同的问题:如何解决大型模型所需的大量算力需求导致的高能耗问题?
例如,OpenAI公司旗下的ChatGPT,其训练过程需要极为庞大的计算资源。微软为了满足这一需求,开发了一个拥有28.5万个CPU核心和1万个GPU的超级计算机。这台服务器虽然强大,但也带来了巨大的能源消耗成本。
数据中心能耗问题已经成为云计算提供商必须面对的一个挑战。为了解决这个问题,无论是微软Azure还是阿里云,都开始采用“泡澡”方式来散热服务器,以提高数据中心的能源效率。英特尔市场营销集团副总裁兼中国区数据中心销售总经理庄秉翰表示:“我认为ChatGPT会加速液冷技术的发展,现在液冷几乎已经成了一种潮流。”
服务器“泡澡”是一种比喻,它实际上代表的是服务器使用液冷技术中的浸没式散热方式,这一技术包括冷板、喷淋和浸没式等,不同于传统风冷系统,但由于缺乏统一标准,在行业内应用并不普遍。
除了标准化之外,应用也是限制液冷技术广泛部署的一项重要因素。“高性能应用环节可能才需要液冷,但是大量普通应用并不是那么高功耗”,宁畅总裁秦晓宁指出,“现在情况不一样,CPU和GPU的功耗不断提升,我们可能就必须采纳更先进的液冷技术。”
算力规模也是促使客户从风冷转向更节能且先进水循环系统(liquid cooling)的关键因素。“包括ChatGPT在内的大型模型带来的算力快速增长,是促使客户迅速从传统风冷转向更节能水循环系统以解决能耗与空间利用率之间平衡关系。”新华三集团计算存储产品线副总裁刘宏程说,“这不仅是关于节省多少电费,还有关空间浪费,以及提高数据中心管理运营费用。这迫使更多中国用户在考虑更新数据中心设计时,将更加关注整体设计方案,以实现既安全又经济效益。”
政府部门也正在推出政策指导行业发展,其中包括规划、能源效率以及利用率三个重点方向。《工业能效提升行动计划》明确规定到2025年新建大型或超大型数据中心PUE(Power Usage Effectiveness)应低于1.3。
然而,要将这些创新实践推广至全行业,并非易事。“我们主要探索三个部分——处理器产品、服务器整体设计以及软件与工具——以实现绿色低碳目标。”陈葆立指出。
要从处理器层面解决问题,如英特尔至强可扩展处理器即使用了90%可再生电力;而在服务器层面,则存在着成本挑战及验证难题。而标准化则是降低成本并推动产业化的一个关键点。
通过共享经验与设计规格,加快浸没式液冷方案落地;形成规模后定制化成本相对较低;建立统一标准可以增大整个市场产业化进程,加速产业化降低成本,让基于水循环系统设备更加普及。在未来,大型模型如ChatGPT将进一步加剧这一趋势,使得水循环系统成为主流选择,而非特殊案例。此外,对于存量设备,可以通过升级改造或实施其他优化措施来提升能源效率。不过,不论是在新的还是旧有的环境中,每一步都会涉及到复杂的人工智能、大容量数据库、高性能计算等多方面协同工作,因此前景充满希望,同时也提出了许多挑战。