芯片精工数据海泡沫AI大模型服务器泡澡新趋势

当人工智能(AI)写作论文、编制旅行攻略、绘画或创作诗歌能达到甚至超越普通人类水平时,有些人感到兴奋不已,而另一些则忧心忡忡。对于生成式AI可能带来的变化,人们的态度各异,但推动这一技术发展的研究人员和企业都有一个共同关注的问题:大型模型所需的大规模算力需求如何解决其巨大的能耗问题?

以全球火爆的OpenAI公司ChatGPT为例,两年前微软为了满足OpenAI GPT-3模型训练所需的巨量算力而开发了一台拥有28.5万个CPU核心和1万个GPU处理器的大型计算机。这台计算机不仅需要大量高性能硬件,还要消耗大量电力。

然而,这种成本虽然昂贵,却是实现AI创新的必要支出。例如,对于2023年初ChatGPT用户数量达1300万,每天运营费用就可能达到50000美元。此外,大型数据中心的能耗问题也成为了云服务提供商面临的一个挑战。

为了应对这些挑战,无论是微软Azure还是阿里云,都开始使用“泡澡”方式来提高数据中心的能源效率,即通过液冷技术将服务器浸入散热剂中,以此提升整体能效比。

据英特尔市场营销集团副总裁兼中国区销售总经理庄秉翰在2023年英特尔可持续发展高峰论坛上表示:“我认为ChatGPT会加速液冷技术的发展,现在液冷已经成为一种潮流。”

实际上,这种“泡澡”的过程涉及到更深层次的一种散热技术——浸没式液冷,它包含了冷板、喷淋和浸没三种方式,并非完全新的技术,但在行业内应用并未普遍。

“主要原因是国内许多冷板液冷设计缺乏一个规范的验证标准,使得每个厂家设计都有差异,这使系统设计成本、验证成本比较高,因此对于最终用户而言这个方案就比较贵。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立解释说。

除了标准化的问题,应用也是影响这种技术广泛部署的一个关键因素。“高性能应用环节可能才需要液冷,但是大量应用并不是那么高功耗,所以国家提出的‘双碳’战略之前,没有那么紧迫和必要性。”宁畅总裁秦晓宁指出,“现在的情况不同了,CPU功耗可能达到270W或300W,未来还可能350W;GPU现在400W或500W,那么必须采用液冷。”

更进一步,该领域还有算力的快速增长也是促使客户从风扇散热转向更节能且先进无线电频率散发(RF)的方法进行升级。包括ChatGPT在内的一些应用带来的高速增长,是促使客户快速考虑更新他们整个数据中心整体设计,从传统风扇至更节能且先进无线电频率散发(RF)的方式解决能源浪费问题。

随着用户需求激增、新标准建立以及规模效应体现,最终整体成本自然下降形成循环,从而加速推动产业从传统数据中心转向新型节能更多样化及优化后的数据中心。而政府指导单位也发布了一系列宏观政策指导行业发展,如规划、能源效率利用率等三个重点方向。

面对能源挑战,一些领导者提出,要从处理器产品到服务器整体设计,再到软件与工具探索绿色低碳解决方案。但要实现这一目标,就需要克服多方面的问题,比如科技创新、成本控制等。在这个过程中,一项重要工作就是制定相关标准来降低产业门槛,让所有用户能够更加普惠地享受到最新科技成果。

目前,在国内几个领先行业,如互联网运营商金融等,对于使用头部级别服务器已经跳过了POC阶段进入到了规模化采用的状态。但仍然存在存量市场中的提升能源效率之道,以及未来至强处理器升级后是否仍然适用于风扇散热等争议点。

猜你喜欢