当AI写作、创作艺术品,甚至能媲美人类水平时,有人兴奋不已,也有人担忧其可能带来的影响。
普通人对于生成式AI的态度各异,但研究人员和企业都共识于一个问题:大型模型所需的巨量算力需求如何解决?
以全球热门的OpenAI公司ChatGPT为例,微软为了满足GPT-3模型训练需求开发了超级计算机,这台服务器拥有28.5万个CPU核心和1万个GPU。
庞大的CPU和GPU导致高昂的采购成本和运营费用。据国盛证券报告估计,GPT-3训练一次耗费约1400万美元。考虑到2023年1月访客数量1300万,每日电费可达5万元。
数据中心能耗问题再次成为云服务提供商面临挑战。为了解决这一问题,无论是微软Azure还是阿里云,都将数据中心服务器配置为“泡澡”方式进行散热,以提升能源效率。
“我相信ChatGPT会推动液冷技术发展,现在它几乎成了一股潮流。”英特尔市场营销集团副总裁兼中国区销售总经理庄秉翰在2023年英特尔可持续发展高峰论坛上表示。
服务器「泡澡」趋势加速
液冷技术包括冷板、喷淋、浸没式,不仅非新技术,而且在业界应用并不普遍。这主要归因于国内许多设计缺乏统一标准,使得每家厂家的系统设计成本和验证成本较高,对最终用户而言价格较贵。
除了技术和标准之外,应用也是限制液冷广泛使用的一个原因。“高性能应用才需要液冷,但是大量低功耗应用并未要求如此。而国家提出的‘双碳’目标之前,这种紧迫性还不足。”宁畅总裁秦晓宁指出,“现在情况不同,CPU功耗可能达到270W或300W,而未来可能更进一步至350W;GPU目前400W或500W,不同程度上必须采用液冷。”
此外,大规模算力的快速增长也促使客户从风冷转向更节能的液冷技术。新华三集团计算存储产品线副总裁刘宏程认为:“这不仅涉及节能,还有空间浪费的问题。在存量数据中心中无法容纳新的设备,如GPU服务器会导致空间占用增加,并提高运维成本。这促使更多客户在考量更新整体设计时转向更先进的liquid-cooled data center.”
“形成标准→激增用户需求→体现规模效应→自然降低成本”的循环可以加速产业从传统数据中心迈向绿色节能型数据中心。
政府部门也推出了相关政策指导行业发展,如规划、能源利用率等三个重点方向。在《工业能效提升行动计划》中明确规定,要到2025年新建大型或超大型数据中心PUE优于1.3。
PUE(Power Usage Effectiveness)衡量IDC能源效率,是IT设备与整体能耗比值。此数直接影响PUE,比如风冷PUE可达1.4-1.5,而使用liquid cooling PUE可以接近1.1。
破解液冷的大规模应用挑战
“我们探索绿色低碳,从处理器产品到服务器整体设计,再到软件工具。”陈葆立指出。
处理器层面的挑战是科技难题,对创新强调的英特尔管理得宜今年发布至强扩展处理器90%可再生电力深度融入其中。
服务器层面则有科技与成本两重难题。“假设管道泄漏怎么办?这需要大量验证。”陈葆立表示,“很多厂家提供方案,我们需要大规模验证去证明这些应用安全且不会影响工作。”
相对容易解决的是科技问题。刘宏程提到最新服务器内英特尔推出的电源汇流排技术,可以针对底座进行限流板设计降低部件级别消耗。
但成本挑战更加严峻,用Liquid Cooling可能带来10%-20%额外开支。“多个厂商支持,但没有统一规范,即便快插尺寸大小也不一样。”秦晓宁说:“无论是从成本还是通用性角度,没有规范困扰客户,因为每家产品不同,在机房使用时有风险。”
通过共同编纂并于今年三月十五日正式发布的Cold Plate Liquid Cooling Group Standard,英特尔希望通过标准化降低产业门槛,让所有用户能够普惠地使用这种最新技术。当生产量增加时,将带来成本下降效果。而正在研发中的浸没式Liquid Cooling,一项难度系数更高的技术,也正由英特尔与领先伙伴联合研发,以期在半年内分享经验与规格,加速落地。
通过这些标准可以增强整个市场产业化进程,加速后才能减少单独定制价格;由英特尔引导建立全部标准之后,全产业链供应商将以统一标准实现互连互操作,大幅减少采购以及未来运维费用,使Liquid Cooling 技术更加易於落实。但即便如此,不一定所有数据中心都必需采取Liquid Cooling方法;理论上风冷亦可适用于新的至强处理器,当它们升级至拥有100个核且功率仍然300W或350W时。