当AI写论文、做旅行攻略、作画、写诗能够媲美甚至超越普通人水平时,有人兴奋不已,也有人忧心忡忡。普通人对于生成式AI可能带来的变化态度各有不同,但推动这一技术发展的研究人员和企业都有一个共同关注的问题——大模型所需的大算力需求带来的能耗问题如何解决?
以火爆全球的OpenAI公司的ChatGPT为例,两年前,微软为了满足OpenAI的GPT-3模型训练的算力需求,专门推出的超级计算机拥有28.5万个CPU核心、1万个GPU。巨量的CPU和GPU带来的是高昂的芯片采购和运营成本。
国盛证券报告估算,GPT-3训练一次的成本约为140 万美元。要用ChatGPT服务用户,以2023年1月的独立访客平均数1300万计算,每日电费在5万美元左右。
数据中心的大能耗问题成了再一次摆在了云计算提供商面前的挑战。为了解决这一问题,无论是微软Azure、阿里云都早已让数据中心服务器用“泡澡”的方式来散热,即采用液冷技术提升IDC能源效率。
“我认为ChatGPT会加速液冷技术的地位提升。”英特尔市场营销集团副总裁兼中国区销售总经理庄秉翰在本周举行的2023英特尔可持续发展高峰论坛期间表示。“目前液冷几乎已经成为一个潮流。”
服务器“泡澡”是一种比喻,实际上代表的是服务器散热液冷技术中的浸没方式,是一种相对较新的应用手段,但业界使用率并不高。这主要由于国内许多设计缺乏规范验证标准,使得每个厂家设计都有差异,这使系统设计成本及验证成本比较高,因此对于最终用户而言这个方案就比较贵。
技术和标准之外,还有一点也是限制其大规模部署的一个原因,那就是应用方面。在大量低功耗应用中,并没有必要采用如此复杂且昂贵的手段进行处理。而国家提出‘双碳’战略之前,对于紧迫性和必要性也没有那么强烈。但随着CPU与GPU功耗不断升高,这一情况正在发生变化,不同于过去,现在很多客户正迅速从风冷转向更节能先进的一种散热方法,即利用液冷技术。
更进一步讨论,大型数据中心规模也是影响其普及速度的一个关键因素。当包括ChatGPT在内的大型应用带来的快速增长促使客户考虑更新他们现有的风冷系统到更加节能、高效率的一种装备配置时,这些因素结合起来促进了整个行业从传统风冷过渡至更加现代化、绿色的数据中心设定中去寻找解答。
面对这些挑战,一些政府部门也开始采取措施指导行业发展,比如《工业能效提升行动计划》等宏观政策指引着产业朝着更绿色方向前进,并规定到2025年新建大型或超大型数据中心PUE(Power Usage Effectiveness)优于1.3。这意味着通过不同的散热方式直接影响PUE值,从而影响整体能源消耗水平。如果采用的是风冷则PUE可能达到1.4-1.5,而使用liquid cooling可以将其降至近1.1。
尽管存在一些难题,如成本增加以及设备安全性的担忧,但是行业伙伴们正在积极合作,以建立统一标准并减少生产成本。此外,与20余家生态伙伴合作编纂并发布了共享用的冰箱类型水循环制品组件协调规格,将帮助缩短时间并降低研发投入,从而加快该领域产品创新步伐。此外,在最新版本中的英特尔电源汇流排(Power Corridor)创新地通过限流板来降低整个部件级别上的能效损失,它们展示出未来智能化管理能力,以及材料循环利用设计将是重要趋势之一。而针对存量市场,也有一系列关于节能减碳策略可以实施以提高能源效率。