当AI写作、创作音乐,甚至绘画能够媲美甚至超越人类水平时,有人对此感到激动不已,也有人担忧其潜在的影响。对于生成式AI带来的变化态度各有不同,但推动这一技术发展的研究人员和企业都面临着一个共同的问题:如何解决大型模型所需的大量算力需求导致的高能耗问题?
例如,OpenAI公司旗下的ChatGPT,由于其庞大的计算需求,在训练过程中需要巨大的CPU和GPU资源。据估算,GPT-3每次训练成本达140万美元,而运营数据中心所需电费也达到5万美元左右每天。这为云计算服务商提出了新的挑战。为了提高数据中心能源效率,无论是微软Azure还是阿里云,都开始采用服务器“泡澡”方式,即使用液冷技术来散热。
英特尔市场营销集团副总裁兼中国区数据中心销售总经理庄秉翰表示,“我认为ChatGPT会加速液冷的发展,现在液冷几乎已经成为一个潮流。”实际上,这种服务器“泡澡”的方式代表的是浸没式液冷技术,它包含了冷板、喷淋、浸没式等多种形式,不同厂家设计差异较大,因此系统设计成本较高,对最终用户来说价格相对昂贵。
除了技术和标准之外,应用也是阻碍液冷技术广泛部署的一个原因。在国家提出“双碳”战略之前,大量应用并非高功耗应用,因此没有迫切性。不过随着CPU和GPU功耗的不断提升,如今可能就必须采用更节能、高效的液冷技术。
新华三集团计算存储产品线副总裁刘宏程指出,“包括ChatGPT在内的大型模型带来的快速算力增长,是促使客户从风冷转向更节能液冷技术的一个重要原因。”这种转变不仅可以节省能源,还可以减少空间浪费以及提高管理成本。
随着用户需求激增、标准建立、规模效应体现到整体成本下降形成循环,这将加速产业从传统数据中心向新型节能数据中心过渡。根据信通院2022年发布的报告,全國已有近520萬個數據中心基架进入部署,并且过去五年的年均复合增长率达到30%;全国用电量占比预计还将继续增加。
政府指导单位也推出了相关政策指导行业发展,比如《工业能效提升行动计划》,明确规定到2025年新建大型或超大型数据中心PUE(Power Usage Effectiveness)优于1.3,以提高能源效率。PUE是衡量IDC能源效率的一项指标,其值低意味着更加节能有效。
要破解液冷科技大规模应用中的成本和标准挑战,从处理器层级解决主要是技术挑战,而服务器层面的挑战则涉及更多地是成本与验证问题。而通过共建标准化方案,如英特尔携手生态伙伴编纂并发布的cold plate liquid cooling group standard,可以降低产业门槛,加快普及速度,让所有用户都能够享受到这项最新科技成果。此外,由于大量生产可进一步降低成本,使得基于liquid cooling 的data center 更易被接受使用。