26家芯片巨头联手助力华为AI大模型数据中心泡澡热潮渐起

当AI写作、创作艺术品,甚至能媲美人类水平时,有人兴奋不已,也有人担忧其可能带来的影响。普通人对于生成式AI的态度各异,但推动这一技术发展的研究人员和企业都面临一个共同问题:如何解决大模型所需的大算力需求导致的高能耗问题?

以全球火爆的OpenAI公司ChatGPT为例,微软为了满足其GPT-3模型训练需求,开发了超级计算机配备28.5万个CPU核心和1万个GPU。巨大的CPU和GPU配置带来了昂贵的芯片采购与运营成本。

数据中心能源消耗的问题已经成为云计算服务提供商们必须面对的问题。为了解决这个挑战,无论是微软Azure还是阿里云,都开始让服务器采用“泡澡”方式进行液冷散热,以提升IDC能源效率。

英特尔市场营销集团副总裁兼中国区数据中心销售总经理庄秉翰在2023年英特尔可持续发展高峰论坛上表示:“我认为ChatGPT会加速液冷技术的发展,现在它几乎已经成了一种潮流。”

服务器“泡澡”是一种比喻,实际上代表的是服务器使用浸没式液冷散热技术,其中包括冷板、喷淋、浸没式等,不是新出现的技术,但业界使用率并不高。这主要由于国内许多冷板设计缺乏统一标准,使得每家厂家的设计都有差异,加重了系统设计与验证成本,从而使得方案对最终用户来说相对昂贵。

除了技术与标准之外,应用也限制了液冷技术的大规模部署。

“虽然大量应用并不是那么高功耗,但是随着CPU功耗增加到270W或300W,再到未来可能达到350W,而GPU现在就400W至500W,所以未来必须考虑使用更节能且先进如浸没式液冷。”宁畅总裁秦晓宁说,“这不仅是节能问题,还有空间浪费以及管理费用提高,这促使更多客户在更新数据中心整体设计时转向更节能及先进的液冷数据中心。”

数据中心基架部署速度快于预期,由信通院发布报告显示,在过去五年的年均复合增长率达到了30%。全国用电量占比从2.6%增长中来看还将继续增加。

政府指导单位出台政策指导行业发展,如《工业能效提升行动计划》,明确规定新建大型、超大型数据中心PUE(Power Usage Effectiveness)优于1.3。

PUE衡量的是IDC能源效率,是通过IDC总能耗除以IT设备能耗得出的指标。不同散热方式直接影响PUE,如果采用风冷,则PUE可达1.4-1.5,而如果使用浸没式液冷则可以做到近1.1。

要破解大规模应用成本和标准挑战,我们需要从处理器产品层级探索绿色低碳,同时也要改善服务器整体设计,并且软件工具方面也有所关注。

对于处理器层面的挑战,主要是技术挑战,对于强调创新的英特尔来说难度可控。而在服务器层面,就存在着既有技术又有成本上的挑战。不过最近的一些创新,比如英特尔电源汇流排(Power Corridor)能够针对CPU底座进行限流降低整个部件级别的能耗。

然而,对于这些创新来说,最大的障碍仍然是成本问题——使用浸没式液冷可能会带来10-20%额外开支。而推动成本下降关键就在于制定统一规范。在今年三月份,一组由英特尔牵头,与二十余位生态伙伴合作编纂并正式发布了新的共享标准,这旨在通过标准化降低产业门槛,让所有用户能够更加普惠地利用最新科技。此外,由雷峰网了解到的情况表明,当这些产品进入批量生产后,其成本将逐渐下降,因为许多相关因素都是基于产量而定的。

尽管如此,不同类型的小型、中型乃至存量数据中心也许并不一定需要采用这种较为昂贵但更有效的地方法律。但无论如何,大模型所需的大算力需求及其背后的巨大能源消耗已经成为驱动行业创新努力的一个重要推动力之一。而随着时间推移,以及不断迭代完善相关科技,大模型是否能够实现真正意义上的“泡澡”,并引领整个行业走向更加环保、高效的人工智能时代,将是一个值得期待的话题。

猜你喜欢