当AI写作、创作艺术品和撰写诗歌都能媲美甚至超越普通人水平时,有人兴奋不已,也有人担忧。
对于生成式AI可能带来的变化,人们有着不同的态度,但推动这一技术发展的研究人员和企业都面临一个共同的问题:大模型所需的大算力需求如何解决?
以全球火爆的OpenAI公司ChatGPT为例,微软为了满足其GPT-3模型训练的算力需求,推出了拥有28.5万个CPU核心、1万个GPU的超级计算机。
巨量的CPU和GPU带来了高昂的芯片采购和运营成本。
据国盛证券报告估计,GPT-3训练一次约花费1400万美元。要用ChatGPT服务用户,以2023年1月独立访客平均数1300万计算,每日电费在5万美元左右。
数据中心能耗问题成了云计算提供商面前的又一挑战。为了解决这一问题,无论是微软Azure、阿里云,都早已让数据中心服务器“泡澡”,提升IDC能源效率。
“我认为ChatGPT将加速液冷技术普及。”英特尔市场营销集团副总裁兼中国区数据中心销售总经理庄秉翰在2023英特尔可持续发展高峰论坛上表示,
服务器“泡澡”代表的是服务器散热液冷技术中的浸没方式,这种技术虽然不是新鲜事物,但由于缺乏统一标准,使得系统设计成本较高,因此对最终用户来说价格相对较贵。
技术与标准之外,应用也是影响液冷大规模部署的一个原因。“高性能应用环节可能才需要液冷,但是大量应用并非那么高功耗,而且国家提出的‘双碳’战略之前,没有那么紧迫。”宁畅总裁秦晓宁说,“现在的情况不同了,CPU功耗可能达到270W或300W,而未来可能更进一步到350W;GPU目前已经达到了400W或500W,所以必须采用液冷。”
更进一步,加剧情况的是算力的快速增长。“包括ChatGPT在内的大型应用,是促使客户从风冷转向更节能的液冷技术的一大原因。”新华三集团计算存储产品线副总裁刘宏程指出,“这不仅是节能的问题,还有关空间浪费的问题。存量数据中心无法容纳新的、高能耗设备。这促使更多中国客户考虑更新整体设计时转向更先进、更节能的liquid-cooled data center”。
政府也推出了指导行业发展的一系列政策,如《工业能效提升行动计划》,明确规定到2025年新建大型/超大型数据中心PUE(Power Usage Effectiveness)优于1.3。
PUE是衡量IDC能源效率的一个指标,是通过IT设备实际消耗电力除以整个数据中心所有消耗电力的比例得出的。使用风冷散热PUE通常在1.4至1.5之间,而采用液冷则可以降低到近1.1。
破解成本和标准挑战
从处理器层级来看,我们主要探索的是如何提高处理器产品;第二部分是服务器整体设计;第三部分涉及软件与工具。在深层环节,我们已经使用了90%可再生电力。但是在服务器层面存在着成本与安全性的挑战。如果管道泄漏怎么办?这些都是需要大量验证的问题。而且很多厂家提供了各种方案,但我们需要进行验证证明这些应用安全且不会影响服务。
即便如此,从最新服务器中推出的英特尔创新电源汇流排技术,可以针对底座进行设计降低部件级别能源消费。这相比之下,与成本挑战更加复杂。大规模使用液冷会带来10-20%增加费用,因为每个厂家的接口大小尺寸都不一样,这给客户带来了困扰。此外,不同厂家的产品无法通用,对于客户而言是一个非常大的难题。
然而通过标准化,可以降低产业门槛,让这个最新技术变得普惠性地用于所有用户。目前,一项名为“cold plate liquid cooling”的团体标准已经被发布,并希望通过这种方式减少产业与科技门槛,让这个最新技巧成为大家的手段之一。
雷峰网了解到,由于许多成本与产量相关,当生产规模扩大时,其价格会随之下降。一旦形成规模定制化就会变得更加经济有效。当英特尔引领其他伙伴一起研发并分享经验后,他们希望能够加速浸没式工作室解决方案落地实现普及化目标。此外,如果没有形成规模定制化就是很昂贵的事实上,在未来长期运维过程中仍然存在潜在风险
尽管如此,对于某些行业,比如互联网、大型企业等,对此并不完全必要:“理论上它(风油精)可以支持至少100核处理器,即使它们运行300w或350w,它们仍然可以继续工作。”
对于现有的旧有系统也有许多改善方法:“近期我们把绿色数据中心升级到了2.0版本,其中包含13种关于节能减碳策略。”
综上所述,大模型所需的大算力需求如何解决,以及如何应对因其训练而产生的大量电子垃圾,这些都是当前以及未来的重要议题之一。