AI大模型数据中心泡澡热潮集成ic芯片的智能加速器

当AI写作、创作音乐,甚至绘画,都能媲美甚至超越人类水平时,有人激动不已,也有人忧虑。

普通人对生成式AI带来的变化持有不同态度,但推动这一技术的研究人员和企业共同关注的问题是:大型模型所需的大规模算力需求如何解决?

以全球火爆的OpenAI公司ChatGPT为例,微软为了满足GPT-3模型训练的算力需求,推出了拥有28.5万CPU核心、1万GPU的超级计算机。巨大的CPU和GPU带来的是高昂的芯片采购和运营成本。

国盛证券报告估计,GPT-3每次训练需要140万美元。要用ChatGPT服务用户,以2023年1月独立访客1300万计算,每日电费在5万美元左右。

数据中心能耗问题成为了云计算提供商面前的挑战。为了解决这一问题,无论是微软Azure还是阿里云都让数据中心服务器“泡澡”,提升IDC能源效率。

“我认为ChatGPT将加速液冷发展,现在液冷几乎已经成为一个趋势。”英特尔市场营销集团副总裁兼中国区数据中心销售总经理庄秉翰在2023英特尔可持续发展高峰论坛上表示。

服务器「泡澡」要成潮流

服务器“泡澡”是一种比喻,实际上代表的是服务器散热液冷技术中的浸没方式,包括了冷板、喷淋、浸没式,并非特别新的技术,但行业使用率并不高。

主要原因是国内许多冷板液冷设计缺乏统一验证标准,使得每个厂家设计都有差异,这增加了系统设计成本及验证成本,因此对于最终用户而言这个方案就比较贵。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立认为。

应用也是影响液冷技术没有大规模部署的一个原因。

“高性能应用环节可能才需要液冷,但是大量的应用并不是那么高功耗的应用,而且在国家也提出‘双碳’战略之前,紧迫性和必要性没有那么高。”宁畅总裁秦晓宁说,“现在的情况不一样,CPU功耗可能达到270W至300W,而未来可能350W以上,对于这些设备必须采用更先进如浸没式或其他类型的心智散热技术。”

更进一步,大量算力的快速发展也是促使客户从风冷转向更节能的液冷技术的一项关键因素。

这不仅仅是一个可以节省多少电力的问题,还有空间浪费的问题。当今存量数据中心中无法容纳新设备。这导致更多中国客户在考虑更新整个数据中心整体设计时,将转向更加节能且先进的大型流量、高密度布局,以及支持多种工作负载的大型流量、大容量硬盘阵列等方案来解决能耗与平衡的问题。

当用户需求激增→标准建立→规模效应体现→整体成本自然下降形成循环之后,可以加速推动产业从传统数据中心转向新型节能化较强的人工智能处理能力以及能够运行复杂任务的小型、高性能节点集群化处理方式上的新兴模式.”

政府指导单位也提出了宏观政策指引行业发展,其中包括三个重点方向:规划、效率利用率。《工业能效提升行动计划》明确规定到2025年新建大型或超大型数据PUE优于1.3。

PUE(Power Usage Effectiveness)用于衡量IDC能源效率,是用IDC全额消耗除以IT设备消耗得出。在不同的散热技术下PUE会有很大的差别,比如风箱制导下的PUE会达到1.4至1.5,而使用液态制导则可以做到接近1.1。

破解这种挑战

我们主要探索三方面绿色低碳:第一部分处理器产品;第二部分服务器整体设计;第三部分软件工具。“通过这些努力,我们希望能够提供一种全面的解决方案,让我们的产品更加符合绿色低碳要求。”

要从处理器层面解决这一挑战,我们主要是科技创新对抗难题,对于追求创新的英特尔来说这是可控范围内的事情。而今年发布的一些英特尔至强可扩展处理器,在深层结构中已经实现了90%再生电力的使用。

服务器层面的挑战则涉及科技与成本两重奏:

如果发生管道泄漏或者损坏整个电子器件怎么办?这需要大量验证,这就是为什么我们与很多业界领先伙伴一起做了非常多试验。一些厂家提供各种不同的方案,但是我们需要通过大量验证去证明这些应用在liquid cooling中的liquid是否真正安全并不会影响整个操作和服务。”

相比之下,加强研发速度地进行创新,以减少具体部件级别的能源消耗,则是一个相对容易的问题。而提高能源利用效果则存在着巨大的经济挑战:

其它一些温水涌入系统各个厂家都可以支持但由于标准不统一,即便快插接口大小尺寸也不一样,从成本角度或者通用性的角度,没有统一规范,对于客户而言是个非常棘手的事情,因为每家的产品都不尽相同,有时候到了客户机房还不能直接使用。”

然而,一旦形成普遍认同的事实标准,就会极大地降低产业门槛,并推动广泛实施,使得所有用户能够享受最新最好的功能。但目前正处于半年的努力后,与20余位生态伙伴合作编纂出的共同标准已正式发布,如期望通过此类共识降低一切相关门槛,让所有参与者均利益最大化。此外,由此产生的一系列开发投入预计将逐步释放给公众领域,为该领域贡献自己的力量,将继续积极参与未来项目中若干潜在变革过程中探索未知领域,同时致力维护社会环境健康稳定。此前基于开放源代码原则进行开发软件平台反映出那些自由分享知识技巧无私协助他人的精神,它们通常被称为开源项目(open-source project)。

猜你喜欢